Data lake, conocido en castellano como «Lago de Datos», es un repositorio de almacenamiento que alberga el dato en estado crudo “row data” para ser consumido por la empresa en el momento que quiera.

La información que se almacena en el Data Lake procede de diversas fuentes de datos, por lo que guarda datos de todo tipo, estructurados y no estructurados: procedentes de bases de datos, documentos ofimáticos, registros de servidores, recursos extraídos de Internet, redes sociales, textos, etc. con el objetivo de ser estudiados y analizados posteriormente.

El coste de almacenamiento es bajo y el acceso a la información es directo mediante un identificador único que se asigna a cada elemento del datalake.

Los datos se almacenan en una estructura plana y solo cuando la empresa necesita acceder a ellos para dar respuesta a casos de negocio, es cuando se ordenan y se diseña una estructura de análisis adecuada .

La utilización de un datalake es clave para que las empresas conserven todos los datos que generan en un repositorio común de forma indefinida y con un bajo coste y puedan acceder a él de forma rápida para dar respuesta al negocio.