Saltar a contenido

Data Pipeline/ETL

ETL

Se refiere al conjunto de procesos/aplicaciones en una organizaci贸n dise帽ados para alimentar los almacenes de datos:

  • Extract: Obtenci贸n de los datos desde m煤ltiples fuentes (bases de datos, APIs, ficheros, etc.)
  • Transform: Limpieza, validaci贸n, agregaci贸n y enriquecimiento de los datos
  • Load: Escritura en el Data Warehouse de los datos una vez han sido transformados convenientemente

ELT

En aras de obtener una mayor escalabilidad en los almacenes de datos, ha ganado popularidad la estrategia que consiste en cargar primero los datos sin procesar y luego realizar transformaciones dentro del almac茅n, aprovechando su potencia computacional

Tradicionalmente, el desarrollo y mantenimiento de las ETLs ha supuesto el reto m谩s exigente en las organizaciones modernas. Ello es debido, fundamentalmente, a la trascendencia que tienen en los resultados que se obtienen finalmente as铆 como a la diversidad y complejidad de las t茅cnicas que intervienen. El grafo a continuaci贸n muestra de manera organizada algunas de estas t茅cnicas

Data Pipeline

En ambos casos, tanto ETL como ELTs, son casos particulares del m谩s general concepto de data pipeline. En t茅rminos sencillos, un data pipeline puede describirse como un mecanismo que transporta datos desde fuentes de datos hasta consumidores/almacenes de datos a trav茅s de algunos pasos intermedios que transforman y optimizan los datos en un formato que puede utilizarse para extraer conocimiento empresarial

Data Pipeline cl谩sico Flujo de datos
DataPipeline.png

Existen dos tipos principales de data pipelines: procesamiento por lotes (batch) y streaming

Batch pipelines

Los datos hist贸ricos se utilizan normalmente en BI (Business Intelligence) para explorar, analizar y obtener informaci贸n sobre actividades e informaci贸n que han tenido lugar en el pasado. Por lo tanto, a menudo basta con el procesamiento por lotes tradicional en el que los datos se extraen, transforman y cargan peri贸dicamente en un sistema de destino. Estos lotes pueden programarse para que se ejecuten autom谩ticamente o pueden activarse mediante una consulta del usuario o una aplicaci贸n. El procesamiento por lotes permite realizar an谩lisis complejos de grandes conjuntos de datos

Streaming pipelines

En muchos casos el an谩lisis, la aplicaci贸n o el proceso empresarial requieren un flujo y una actualizaci贸n continuos de los datos. En lugar de cargar los datos por lotes, los streaming pipelines mueven los datos de forma continua y en tiempo real desde el origen hasta el destino

Info

Siguiente: Secci贸n Data Warehouse