Taller: Instalación de Hadoop en AWS

El primer taller práctico de nuestro ciclo sobre Administración de Hadoop está dedicado a la puesta en marcha de una rejilla plenamente funcional de este framework en un cluster de máquinas virtuales. De esa forma, dispondremos de un entorno plenamente operativo para aprender a usar el popular entorno de Big Data.

Todo lo que podamos aprender sobre tratamiento y análisis de datos no sirve de mucho si no tenemos un sitio en el que ejecutarlo. R no sirve de mucho si sólo lo ejecutamos en una aplicación de escritorio, ya que la verdadera potencia de estos sistemas consiste en aplicar miles de veces el mismo algoritmo a millones de datos repartidos por los nodos de una rejilla de cómputo distribuido. Pero claro, para montar una rejilla de Hadoop hacen falta… varios nodos comunicándose entre sí y no todo el mundo dispone de 4 o 6 ordenadores que pueda reservar para este fin. Por eso, nuestra propuesta es que te montes todo el sistema en máquinas virtuales de AWS, el servicio de alquiler de hardware en la nube de Amazon.

El taller se divide en dos partes, en la primera nos centraremos en el alta de la cuenta de AWS y la creación de los nodos virtuales que más tarde usaremos para instalar el software. En esta parte te vas a beneficiar de la política de comercialización de Amazon, que durante el primer año te permite usar algunas configuraciones especiales de forma totalmente gratuita. Es decir, durante el periodo de aprendizaje o de experimentación con Hadoop no vas a tener ningún coste de hardware.

La segunda parte, una vez creada la cuenta de usuario y los nodos, consiste en la descarga, configuración e instalación del software de Hadoop. El proceso es un poco largo y lleno de ficheros y parámetros, con muchas oportunidades de confundirte si no tienes cuidado, pero para ello ponemos a tus disposición un fichero con todos los comandos indicados paso a paso y una grabación en vídeo que podrás repetir y detener tantas veces como necesites hasta poner en marcha los servicios de procesamiento (YARN) y almacenamiento (HDFS) distribuido.

Requisitos:

Es necesario tener conocimientos básicos de administración de UNIX (Linux) y una idea general de qué es Hadoop, aunque no hace falta experiencia previa con este framework. Si realizas las prácticas desde Windows, tendrás que instalar una aplicación local de acceso remoto, como WinSCP.

Puedes asistir al webinar con cualquier dispositivo con acceso a Internet y navegador web. Además, dispones de apps en Android e IOS para tabletas y smartphones.

Inscripción:

Esta convocatoria ya ha vencido, pero puedes acceder a las grabaciones en directo del webinar, de forma que puedes seguir exactamente los mismos pasos e indicaciones que los asistentes presenciales. El taller consta de dos grabaciones: