La constante evolución y transformación digital ha supuesto un cambio sustancial en todas las actividades de nuestro entorno, tanto en el ámbito profesional, como en el personal. Cada vez es más habitual escuchar hablar en nuestro día a día de la importancia y el valor que aportan los datos. Así como de los términos de Big Data y Data Science, muy en boca de todos últimamente. Ambos se asocian a grandes volúmenes de datos, pero no siempre queda clara la diferencia que hay entre estos dos términos, que, aunque relacionados, en realidad no son sinónimos. ¿Cuáles son las diferencias entre Big Data y Data Science?
Comencemos por Big Data. ¿qué es?
El concepto de Big Data hace referencia al almacenamiento, procesamiento y gestión de un conjunto de datos o combinaciones de conjuntos de datos, que pueden ser tanto estructurados (aquellos que tienen un formato y una disposición definida, como por ejemplo las tradicionales bases de datos SQL) como no estructurados (aquellos que no presentan ninguna ordenación de la información, como un texto de opinión o una imagen). Puedes ver aquí la diferencia entre estos dos tipos de datos. Y todo esto, en una velocidad prácticamente en tiempo real o streaming.
Con todo, la definición de big data tiene numerosas acepciones, dependiendo de dónde se ponga el acento: en la velocidad, en la variedad, en el volumen… (de ahí las famosas V del Big Data), o en las tecnologías desarrolladas para almacenar, procesar y gestionar estas grandes cantidades de datos (por ejemplo, el Ecosistema Hadoop o el framework Apache Spark).
Aunque tampoco hay una definición única para determinar si un conjunto de datos concreto es o no es Big Data, se suele considerar Big Data, en términos de volumen, a conjuntos de datos a partir de varios Terabytes.
Sin embargo, la funcionalidad práctica de toda esta cantidad de datos se obtiene al extraer valor de los mismos, explorándolos y analizándolos para obtener ventajas competitivas.
En este punto entra el concepto de Data Science, o ciencia de los datos.
¿Qué es Data Science?
Los datos por sí solos no ofrecen a priori ningún valor, ni a las empresas ni a la sociedad. En ocasiones, incluso, ni siquiera son legibles o comprensibles a simple vista, y es necesaria una transformación previa de los mismos para poder interpretarlos.
El Data Science involucra métodos científicos, procesos y modelos para llevar a cabo esta extracción de valor. El Data Science incluye campos de análisis como la analítica descriptiva, la estadística, el data mining o minería de datos o el machine learning o aprendizaje automático. La ciencia de datos, desde algo básico como un análisis descriptivo hasta algo evolucionado como la implementación de modelos predictivos, permite a las organizaciones obtener información de valor procedente de dichos datos, detectar patrones, y conseguir así ventajas competitivas, identificar nuevas oportunidades de negocio y mejorar la experiencia de los usuarios.
En este post de nuestro compañero Jaime Reguero, hablamos con más detalle del origen de este término.
Diferencias entre big data y data science
Una vez explicado qué es el big data y qué es el data science, podemos ver que son conceptos diferentes. No son sustitutivos el uno del otro, sino que el data science es parte complementaria del concepto de big data.
Sin big data no existiría el data science y el big data no tendría tanto sentido sin el data science. No tendría sentido porque esos datos necesitan ser explorados y analizados para sacar valor de ellos. Ya sea conseguir ventajas competitivas, una mejora en la toma de decisiones, en la automatización de tareas, etc.
¿Hace falta tener ingentes cantidades de datos para aplicar técnicas de Data Science?
Esta es una pregunta que se hacen muchas pymes antes de llevar a cabo proyectos de Big Data, y la realidad es que no es necesario tener grandes volúmenes de datos para poder extraer valor. Lo importante es la calidad de la información que se obtiene de ellos tras aplicar técnicas de Data Science, y eso depende principalmente de dos aspectos clave:
- la relevancia de la información en el problema que se quiere resolver,
- y la limpieza de los datos para que el ruido no interfiera en la búsqueda de patrones reales.
Incluso se ha desarrollado un término para los tipos de datos que cumplen estas condiciones, indispensables para que el Data Science aporte valor: Smart Data. En proyectos de tan sólo unos cientos de megas de datos, ya se puede obtener una información sumamente valiosa y accionable. Sólo si la naturaleza de los datos, ya sea por su heterogeneidad o su volumen, hace inmanejables el procesamiento y la exploración de los mismos, se requerirá el uso de la tecnología adecuada para Big Data.
En PiperLab somos expertos en Data Science, poniendo las herramientas Big Data al servicio de la extracción de valor de negocio durante todo el ciclo de vida del dato. Esperamos que este post te haya servido para entender las diferencias entre Big Data y Data Science.