Hadoop

Hadoop es un entorno software de licencia libre que sirve para dar soporte al almacenamiento y procesamiento distribuido de datos. Nace en 2005 de la mano de Doug Cutting y Mike Cafarella, dentro de los proyectos Lucene y Nutch, que pretendían poder indexar de manera eficiente grandes cantidades de información (potencialmente todo Internet) para búsquedas. En 2011 Hadoop se libera con Licencia Apache y comienza a ser explotado por empresas y organizaciones de todo el mundo. Los dos ejes principales de Hadoop son HDFS, su sistema de ficheros distribuidos para almacenar la información en muchas máquinas conectadas, y MapReduce, el algoritmo creado por Google para llevar a cabo procesamiento distribuido de la información. Sobre estas bases se han ido creando otra serie de herramientas como Hive, Sqoop, Pig, Flume, Oozie, etc. Que en su conjunto permiten manejar de manera eficiente la información sobre un clúster de máquinas, con buena escalabilidad horizontal.

Piperlab

Autor: Piperlab