Saltar a contenido

Data Pipelines

Los acr贸nimos ETL y ELT hacen referencia a los procesos de transformaci贸n responsables de alimentar el Data Warehouse con los datos desde las bases de datos del operacional

ETL

Se refiere al conjunto de procesos/aplicaciones en una organizaci贸n dise帽ados para alimentar los almacenes de datos:

  • Extract: Obtenci贸n de los datos desde m煤ltiples fuentes (bases de datos, APIs, ficheros, etc.)
  • Transform: Limpieza, validaci贸n, agregaci贸n y enriquecimiento de los datos
  • Load: Escritura en el Data Warehouse de los datos una vez han sido transformados convenientemente

ELT

En aras de obtener una mayor escalabilidad en los almacenes de datos ha ganado popularidad la estrategia consistente en cargar primero los datos sin procesar y realizar las transformaciones dentro del propio almac茅n. Este cambio de orden es posible debido al aumento de la potencia computacional de los repositorios de datos

Tradicionalmente, el desarrollo y mantenimiento de las ETLs ha supuesto el reto m谩s exigente para los departamentos de IT de las organizaciones. Ello es debido, fundamentalmente, a la trascendencia que tienen en los resultados de an谩lisis que se obtienen finalmente as铆 como a la diversidad y complejidad de las t茅cnicas que intervienen. El grafo a continuaci贸n muestra de manera organizada algunas de estas t茅cnicas
ETL.png
Es importante tener presente que ambos casos, tanto ETLs como ELTs, son casos particulares del m谩s general concepto de data pipeline

Definici贸n data pipeline

En t茅rminos muy sint茅ticos y sencillos, un data pipeline puede describirse como un mecanismo que transporta datos desde fuentes de datos hasta consumidores/almacenes de datos a trav茅s de algunos pasos intermedios que transforman y optimizan los datos en un formato que puede utilizarse para extraer conocimiento empresarial

Data Pipeline cl谩sico Flujo de datos
DataPipeline.png pipeline.png

Tipos de data pipelines

Los data pipelines se pueden clasificar en dos tipos principales: procesamiento batch (discreto y/o por lotes) y streaming (procesamiento continuo/en tiempo real)

Batch pipelines

Caso t铆pico del procesamiento de datos hist贸ricos que se utilizan en BI (Business Intelligence) para explorar, analizar y obtener informaci贸n sobre actividades que han tenido lugar en el pasado. Por lo tanto, a menudo basta con el procesamiento por lotes tradicional en el que los datos se extraen, transforman y cargan peri贸dicamente en un sistema de destino. Estos lotes pueden programarse para que se ejecuten autom谩ticamente o pueden activarse mediante una consulta del usuario o una aplicaci贸n. El procesamiento por lotes permite realizar an谩lisis complejos de grandes conjuntos de datos

Streaming pipelines

En muchos casos el an谩lisis, la aplicaci贸n o el proceso empresarial requieren un flujo y una actualizaci贸n continuos de los datos. En lugar de cargar los datos por lotes, los streaming pipelines mueven los datos de forma continua y en tiempo real desde el origen hasta el destino