Analítica web
Reflexiones sobre madurez digital, datos y tecnología

La típica historia del data lake

Se lee en 3 minutos

Si estás leyendo este artículo, seguramente hayas oído hablar un montón de veces del data lake. Es uno de los conceptos centrales dentro de la gestión del dato. Y con los cambios tan rápidos que se dan en el mundo digital es un concepto que se recicla una y otra vez.

Mi propuesta en este artículo es presentar la actualidad del data lake. Seguramente, en unos pocos meses esté desfasado, pero en este negocio una correcta información fresca es vital para tomar buenas decisiones.

Mi acercamiento al data lake va a ser histórico, es decir, la típica historia va a ser la Historia, con mayúsculas.

Podríamos decir que surgieron con la escritura. Los primeros registros escritos son unas anotaciones de conteo de ganado que aparecieron en el Valle del Indo. Se utilizaban pues para tener centralizada la información del ganado de un pueblo. Ese momento marca el inicio de lo que llamamos Historia. Lo que hacía el hombre hasta ese momento era prehistoria.

Podemos considerar esos primeros símbolos como el primer data lake. “Ja, ja” parece cómico hablar de data lakes y de escrituras en el Valle del Indo en la misma frase, pero sus principios estaban establecidos: un sitio donde centralizar información de diversas fuentes y tenerlas accesibles.

Mucho ha evolucionado desde entonces. Con el desarrollo de la escritura los primeros papiros se centralizan en bibliotecas como la de Alejandría, los manuscritos en libros se centralizan en monasterios durante la Edad Media, etc. Hay momentos de cambios radicales como la imprenta de Guttenberg que democratizan la posesión de libros y la creación de bibliotecas. Pero, a grandes pasos, llegamos a nuestros días y al nacimiento de las computadoras.

Con la llegada de los ordenadores la posibilidad de tratamiento de la información se multiplica enormemente y miles de libros se acumulan fácilmente en computadoras únicas más o menos grandes. Triunfa un idioma para comunicarse con esos datos que es el SQL (Structured Query Language) y se habilita la posibilidad de numerosos análisis sobre estos datos. Principalmente, se trata de datos de clientes de empresas.

Acercándonos más a nuestros días, llegamos a la aparición de Internet y las cosas cambian de nuevo. La cantidad de datos que se generan y recogen se multiplican exponencialmente, el acceso a la información es casi ilimitada, y el data lake como no se adapta y cambia.

Las bases de datos no caben ahora en un sólo ordenador, el acceso a los datos también se multiplica y los ordenadores por grandes que sean no cuentan con la capacidad de satisfacer estas necesidades.

En este punto, bastante más cercano, es el punto donde nos encontramos, la era del Big Data. Los proveedores de tecnologías estuvieron buscando la mejor tecnología para crear los data lakes. Se hicieron investigaciones tanto desde el punto de vista de infraestructuras como de los lenguajes. Y, tras esas investigaciones, parece que los ganadores de esta carrera por el data lake son las soluciones cloud, especialmente, aquellas que usan bases de datos con pago bajo demanda y lenguaje SQL. Pongo por ejemplo BigQuery y Athena.

Para ampliar la explicación voy a comenzar por lo que no es. No es tener un edificio entero lleno de servidores, no es pagar a un montón de administradores de sistemas para tener la base de datos lista y operativa, no es tener un equipo de seguridad garantizando la confidencialidad del dato y no es tener a un montón de analistas con conocimientos avanzados de paralelización para hacer sus consultas. Se trata, más bien, de una base de datos SQL gigante en el cloud y se paga por el uso. De esta manera, los proveedores de estos servicios se encargan del trabajo duro (infraestructura, conectividad, seguridad, usabilidad, diseño, etc.) y pueden aprovechar las economías de escala para ofrecer un producto a un precio asequible y con grandes beneficios.

Pero, una vez que sabemos que tecnología podemos utilizar, ¿cómo creamos nuestro data lake? Seguramente tengamos interés en diversas fuentes de datos nuevas y quizás, a través de los años, hayamos creado varias bases de datos en diferentes formatos.

Desde mi día a día y con las tecnologías asociadas a los entornos cloud los mecanismos más útiles son:
Scripts cronificados en los servidores, que llaman a las APIs recogen los datos y los transforman en tablas de estas bases de datos.
Funciones Serverless, que pueden hacer lo mismo pero con unos servidores que se encienden sólo para hacer esa tarea concreta.
– La creación de tablas desde dispositivos de almacenamiento en la nube y los mecanismos de creación de tabla de la propia herramienta. Importaciones desde csv o json.

Para concluir, voy a hablar de un futuro que ya está siendo un presente, y es la posibilidad de integración de análisis avanzados de machine learning dentro de estas enormes bases de datos en la nube.

Aprovechando la capacidad de cálculo de las granjas que tienen estas máquinas por detrás, se incluyen de una manera sencilla clusterizados, clasificaciones y predicciones, facilitando la vida a analistas y empresas.

Como veis la historia del data lake también es la historia del mundo y quizás también tenga un papel central en el progreso. El resultado es siempre el mismo, centralizar información para tomar buenas decisiones.

2 Comentarios

Escribe tu comentario

3 × 1 =

Navegar