Mejoras en MapR para acelerar la ejecución distribuida de Python

MapR, uno de los grandes desarrolladores de soluciones Big Data, ha anunciado el lanzamiento de nuevas versiones de MapR-DB, MapR Data Science Refinery y Apache Drill, todas ellas encaminadas a incrementar la velocidad de ejecución del código distribuido y simplificar el desarrollo de aplicaciones sobre Hadoop.

Estas novedades están agrupadas en el MapR Expansion Pack (MEP) 4.1, una recopilación de actualizaciones y cambios que afectan a diversos componentes de la distribución, muchas de ellas orientadas a facilitar el uso de Python. Así, los trabajos PySpark pueden ahora escribir y leer directamente del módulo MapR-DB OJAI, permitiendo que la información lanzada al cluster de Hadoop esté disponible de forma inmediata para su procesamiento. Si combinamos esto con el soporte para la distribuciones de archivos Python con PySpark, vemos que el despliegue de aplicaciones distribuidas en este lenguaje ha ganado bastante.

Mención aparte merece la inclusión de la versión Apache Drill 1.12, que sigue presentándose como una alternativa a otras capas de abstracción en la ejecución de consultas como Pig. Según MapR, las mejoras en el código suponen un incremento de velocidad del 100% en consultas estructuradas.

Más información y descargas: MapR.