Arquitectura MDS

Col

Resulta incuestionable que el mundo actual progresa impulsado por los datos. Como resultado, las organizaciones se ven inundadas de información procedente de una gran cantidad de fuentes. Con el objetivo de aprovechar al máximo el poder de estos datos surge el paradigma Modern Data Stack, un enfoque modular, escalable y distribuido para la gestión de datos

Col

Introducción a Modern Data Stack¶

Modern Data Stack (MDS) es, en esencia, un conjunto de herramientas y de tecnologías integradas para optimizar los flujos de trabajo de datos lo que permite a las organizaciones recopilar, procesar, almacenar y analizar de manera eficiente grandes cantidades de datos. Sin embargo, comprender el verdadero alcance de esta propuesta requiere analizar, al menos, los siguientes apartados:

¿Qué características hacen singular al MDS?: Modularidad, escalabilidad y flexibilidad
Rol protagonista de los data pipelines: Determinante en cómo los flujos de trabajo robustos garantizan una integración y transformación de datos sin fisuras. En particular, contrastar las metodologías tradicionales y modernas de procesamiento de datos (ETL vs ELT)
Fundamentos del almacenamiento de datos: Diferenciar nítidamente entre procesamiento y almacenamiento dominando principios clave como el modelado dimensional y el diseño de esquemas (metadatos)
Gobernanza y seguridad: Mejores prácticas para garantizar la integridad, el cumplimiento y la confianza de los datos
Herramientas y ecosistema: Revisar las herramientas más populares para la orquestación y monitorización de pipelines
Tendencias emergentes: El futuro de los flujos de datos, data streaming y la automatización impulsada por la IA y la transmisión en tiempo real

La pila de datos moderna supone un cambio de paradigma en la forma en que manejamos los datos. A diferencia de las arquitecturas tradicionales y monolíticas, persigue la flexibilidad y la escalabilidad con un diseño modular que permite a las organizaciones elegir las mejores herramientas para cada etapa del ciclo de vida de los datos

En el centro de esta pila se encuentran los datos y, consecuentemente, los repositorios OLAP para el análisis de los datos. Sin embargo, alimentar este almacén requiere transformaciones de datos robustas en procesos ETL/ELT eficientes. Es imperativo garantizar el flujo continuo de datos desde diversas fuentes hasta los almacenes donde se transforman y se preparan los datos para su análisis

Ejemplo: Migraciones de Datos (Data Migration)¶

La migración de datos tradicionalmente solía ser un proceso puntual o poco frecuente que consiste en trasladar datos de un sistema de almacenamiento a otro. Puede estar motivada por una actualización de la base de datos, el cambio a una nueva plataforma o la consolidación de fuentes de datos. El objetivo es transferir los datos con los mínimos cambios posibles, garantizando una transición fluida y fiable al nuevo sistema

En el acelerado mundo actual, las decisiones se basan cada vez más en información en tiempo real o casi real. Para lograr agilidad es esencial contar con una pila de datos bien diseñada que tenga en consideración diferentes problemáticas:

Data Integration: integración de datos desde fuentes múltiples y heterogéneas
Data Transformation: ETL/ELT que limpia, estandariza o enriquece datos
Disponibilidad Analitica: los datos deben organizarse de manera que posibiliten los procesos de consulta (querying) y obtención de informes (reporting)

Antes de abordar la construcción de un MDS es preceptivo abordar más profundamente el concepto Data Pipeline a fin de comprender y asimilar oportunamente las diferencias con los tradicionales procesos de migración de datos