Tras asistir a charlas, tener muchas conversaciones y hablar con mucha gente sobre todo lo que rodea al universo Big Data, en este post intentamos arrojar un poco de luz sobre a qué nos referimos cuando usamos términos como Big Data, Business Intelligence, Data Science, etc. y otros términos que cada vez se oyen más cuando se habla de extraer valor de los datos. Por ello nos lanzamos a hacer el «5 fact checks sobre el big data».

1. El Big Data no es más que Business Intelligence con un nombre más cool. FALSO.

Es cierto que hablar de Big Data es hablar de una batidora donde se mezclan infraestructura, bases de datos, análisis, visualización, negocio… y es verdad que el BI está en medio de estos temas. Sin embargo, las herramientas de BI son una capa de visualización y análisis sobre bases de datos que, tradicionalmente, solían ser relacionales y que ahora pueden conectarse a otros tipos de fuentes, como bases de datos de documentos, columnares, de grafos, etc. Son precisamente este tipo de tecnologías las que están más cerca de la terminología «Big Data» ya que permiten adaptar, combinar y escalar nuestros proyectos basados en datos.

2. Todas las empresas del mundo deberían de hacer Big Data. VERDADERO, PERO…

La cuestión no es si hay que desarrollar proyectos de análisis de datos porque muchas empresas lo hacen sino qué queremos resolver desde el punto de vista del negocio y cómo los datos que estamos recogiendo sumados a los que están disponibles a través de otras fuentes, nos ayudan en este objetivo. En este sentido, pensamos que la gran mayoría de las empresas pueden mejorar muchos aspectos y procesos internos a partir del análisis de sus datos, pero siempre buscando la respuesta a una pregunta (que además, nos encantaría ayudarte a formular). Puesto que un gran número de empresas están consiguiendo transformar su problema de negocio en un problema de análisis de datos, no llevar a cabo este proceso supone una clara desventaja competitiva.

3. Esto del Big Data se lo inventó Google hace unos años con el BigTable. FALSO.

Tanto la computación como el almacenamiento distribuido, que son la base de este mundo, existen desde hace más de 20 años. Los algoritmos para extraer información de las variables, modelizar patrones de comportamiento o hacer predicciones, como pueden ser las redes neuronales artificiales, se diseñaron ¡hace 40 años! Así que darle el mérito a Google de todo lo que existe alrededor del Big Data es demasiado injusto. Lo que sí es verdad, es que en el año 2008, Google publicó su algoritmo para distribuir datos y su procesamiento, sentando las bases del paradigma MapReduce, que es el soporte de tecnologías como Hadoop. Esto no quiere decir que antes no hubiera sistemas que lo usaran, sino que Google fue capaz de formalizarlo y escalarlo.

4. Se puede extraer valor de bases de datos de cientos de miles de registros. VERDADERO.

¡Por supuesto! Antes de que las tecnologías de almacenamiento y procesado masivo de datos aparecieran, las empresas ya guardaban sus datos, ya fuera en bases de datos, en ficheros de texto o hasta en ficheros Excel. Toda esta información es muy rica igualmente, ya que de ella se pueden extraer patrones de comportamiento, tendencias, oportunidades o hacer predicciones, aunque no haga falta una infraestructura Big Data para su procesamiento. De hecho, independientemente del volumen, esto es terreno de los Data Scientists, expertos en sacar el valor de negocio y en buscar las respuestas a tus preguntas basándose en los datos mediante técnicas estadísticas (un día hablaremos de los distintos perfiles asociados a este mundo de los datos). Precisamente para remarcar el valor de este tipo de datos, surgen términos como el Small o el Smart Data.

5. En todos los proyectos de Big Data hay que usar Hadoop. FALSO.

Se pueden discutir muchos de los aspectos en torno al análisis de datos y nunca llegaremos a una verdad universal. ¿Cuál es la mejor tecnología? Depende, ya que según las necesidades de un proyecto elegiremos una u otra. Por ejemplo, si para resolver tu problema tenemos que analizar decenas de GBs, no creo que Hadoop sea la mejor opción posible; en cambio, si generas 10 GBs diarios y te gustaría sacar reportes mensuales o trimestrales, nos encontramos con que la tecnología del elefante puede ayudarnos mucho. Puede que no sea sólamente un problema de volumen sino tener otras restricciones como que una serie de métricas las necesitamos en tiempo real o que necesitamos enriquecer los datos de manera online. O puede ser un problema de formato, ya que hay otras soluciones que, por ejemplo, se llevan mejor con documentos. Este tipo de condiciones son las que hay que sopesar para acertar en nuestra decisión tecnológica.