Ciclo EMC-DS: Técnicas de análisis – Clustering

Empezamos un grupo de jornadas en los que estudiaremos los principios de las técnicas de análisis numérico más importantes, formando el núcleo de conocimiento de todas las competencias de Data Science.

Tras haber dedicado algunas semanas a conocer los principios generales de Big Data, como el ciclo de vida de los datos o una introducción al lenguaje R, vamos a dedicar unas cuantas sesiones a meternos en “chicha”, estudiando los principios teóricos y prácticos del análisis exploratorio de datos.

Vamos a dedicar esta primera sesión a un conjunto de técnicas denominadas “clustering”, o “agrupamiento”, que tienen como objetivo detectar, en un análisis no-supervisado de aprendizaje automático, los núcleos (clusters) de datos más significativos en el campo de información analizado.

De las técnicas que forman el grupo de clustering, dedicaremos un tiempo a comprender la estrategia de K-Means, ideal para la identificación de grupos en los que es posible utilizar una expresión vectorial para identificar su distancia de los valores promedio (means) de las agrupaciones detectadas.

Aunque esta aproximación pertenece al grupo de algoritmos computacionalmente intensivos (hard-NP) tiene ventajas para la detección de patrones en grupos de datos en los que no es fácil, o podría ser engañoso, tratar de detectar tendencias de forma intuitiva, como sectores de población por ingresos. ¿Cómo podemos valorar el umbral en el que el comportamiento de la población varía, en realización con la renta? ¿A partir de 3 veces el sueldo mínimo interprofesional? ¿Asignamos intervalos arbitrarios en múltiplos “cómodos”, como 1.000, 5.000 y 10.000 € mensuales? ¿Cómo sabemos que esos intervalos realmente representan tendencias significativas?

Para aprovechar al máximo las tres horas del seminario, es conveniente haber leído por adelantado el material didáctico que recomendamos y seguimos durante todo el ciclo. Para este seminario es el cuarto capítulo del libro Data Science & Big Data Analytics. Este es el libro que ha editado EMC para la preparación del examen y, por tanto el más adecuado. Si tienes intención de seguir el grupo de estudio en serio, es recomendable que compres el libro en papel. Puedes encontrarlo en http://amzn.to/1RJPyEF.

Requisitos:

No es necesario tener conocimientos avanzados de estadística, matemáticas o programación, aunque es necesario acudir con una actitud de atención ya que algunos conceptos pueden ser difíciles de entender. Aún así, precisamente el compromiso del grupo es el de facilitar la divulgación y comprensión del temario de certificación en Data Science de EMC.

Material:

Se recomienda acudir con material de papelería para tomar notas. Aparte de eso, no hace falta nada más. No hay que traer portátil ni ningún tipo de material informático, ya que no se usará en las prácticas. En los días posteriores al seminario, se enviará a todos los asistentes una copia de la presentación utilizada.

Información del evento

  • Fecha: 04 de Febrero de 2016
  • Horario: 09:00 a 11:30 horas
  • Lugar: MeetingPlace Embajadores
  • Inscripción: 15’00 €

Este evento ha terminado. Si quieres que te avisemos de las nuevas convocatorias, suscríbete a las actualizaciones del blog en el formulario que encontrarás en la parte inferior de la página.