Un nuevo banco de pruebas para evaluar sistemas Big Data

Hadoop está disponible en varias distribuciones que integran distintos componentes y configuraciones, todas ellas basadas en el mismo modelo. Pero, ¿hay alguna un poco más rápida que la otra? ¿En qué hardware es más eficiente? ¿Es más rápido el mismo sistema con Spark que con MapReduce?

La comparación de resultados de rendimiento objetivos entre sistemas es una herramienta fundamental para tomar decisiones de compra, optimizar las configuraciones y sacar el mayor rendimiento a la inversión realizada. El problema es cómo comparar cosas tan dispares entre sí. El Transaction Processing Performance Council (TPC)es una organización sin animo de lucro que, desde hace años, se dedica a desarrollar bancos de pruebas para escenarios transaccionales, en donde se ponen a prueba los sistemas contra desafíos de gran tamaño. El objetivo: determinar las mejores configuraciones para entornos de servidor, como los usados en Big Data.

El TPC dispone en la actualidad de dos bancos de prueba para Hadoop: TPCx-BB, para evaluar la parte analítica, y TPCx-HS para la parte del sistema de ficheros. Esta última acaba de ser objeto de una actualización para ampliar el abanico de escenarios y poner a prueba configuraciones con Spark. De acuerdo a los últimos resultados, por ahora parece que la distribución de Cloudera es de las más eficaces en el mayor número de situaciones, como puede verse en su página web. Además, las pruebas están disponibles para su descarga de forma gratuita.

Más información en Inside HPC.