Data Mesh es un concepto relativamente nuevo en la gestión de datos, introducido como enfoque sociotécnico para compartir, acceder y gestionar datos analíticos en entornos complejos a gran escala, tanto dentro de las organizaciones como entre ellas. Según Gartner, Data Mesh se encuentra actualmente en el punto álgido de las expectativas infladas, lo que pone de relieve su creciente interés y escrutinio. Es importante señalar que Data Mesh no es una arquitectura de datos en el sentido tradicional, sino más bien un cambio de paradigma en la forma en que las organizaciones abordan la propiedad, la gestión y la gobernanza de los datos.

Cambios fundamentales introducidos por la malla de datos

Cambio organizativo: La malla de datos aboga por pasar de la propiedad centralizada de los datos, gestionada tradicionalmente por equipos especializados, a un modelo descentralizado en el que la propiedad y la responsabilidad de los datos se devuelven a los ámbitos empresariales en los que se originan o se utilizan más activamente
Cambio arquitectónico: En lugar de basarse en almacenes o lagos de datos monolíticos, Data Mesh propone un sistema distribuido en el que los datos se conectan y a los que se accede a través de protocolos estandarizados. Este enfoque favorece una arquitectura de datos más escalable y flexible
Cambio tecnológico: En Data Mesh, los datos son tratados como ciudadanos de primera clase, no como un mero subproducto de la ejecución de código pipeline. Los datos y el código que los mantiene se consideran unidades autónomas y vivas que pueden evolucionar independientemente
Cambio operativo: La gobernanza de los datos pasa de un modelo descendente y centralizado, con una importante intervención humana, a un modelo federado. En este modelo, las políticas de gobernanza se integran computacionalmente en los nodos de la malla, lo que permite unas prácticas de gobernanza más dinámicas y escalables
Cambio del sistema de valores: La perspectiva fundamental sobre los datos pasa de tratarlos como un activo estático que hay que recopilar a verlos como un producto diseñado para servir y deleitar a sus usuarios

Principios básicos del diseño de mallas de datos

Propiedad de datos descentralizada y orientada al dominio: La propiedad de los datos analíticos se descentraliza a los dominios de negocio, facultando a los más cercanos a los datos para gestionarlos y compartirlos. Este principio se alinea con el diseño orientado al dominio (DDD) y subraya la importancia de la experiencia del dominio en la gestión de datos
Los datos como producto: La malla de datos requiere que los ámbitos empresariales traten sus datos como un producto, abstrayendo la complejidad subyacente y garantizando que sean descubribles, comprensibles, direccionables, fiables, seguros, interoperables, accesibles y valiosos
Infraestructura de datos de autoservicio: La arquitectura promueve una infraestructura de datos de autoservicio que permite a los equipos orientados a los dominios gestionar todo el ciclo de vida de los datos, desde su adquisición hasta su democratización, sin depender en gran medida de equipos de TI centralizados
Gobernanza computacional federada: La gobernanza en una malla de datos está federada, y cada equipo de dominio de datos es responsable de sus productos de datos locales al tiempo que se adhiere a las políticas de gobernanza globales. Este enfoque garantiza que los datos sean detectables, seguros, fiables y reutilizables en toda la organización

Ventajas de la malla de datos

Productos de datos personalizados: Data Mesh permite la entrega de productos de datos personalizados que satisfacen demandas empresariales específicas, vinculando objetivos empresariales estratégicos con un ecosistema dinámico de productos de datos
Escalabilidad a través de la descentralización: Al descentralizar la propiedad y aprovechar la experiencia específica del dominio, Data Mesh escala la entrega de productos de datos y fomenta un cambio cultural hacia una mentalidad de productos de datos
Agilidad mejorada: Al descomponer las arquitecturas monolíticas y centralizadas y abstraer la complejidad, Data Mesh mejora la agilidad organizativa, lo que permite responder con mayor rapidez a las necesidades empresariales
Modelo de gobernanza flexible: El modelo de gobierno federado permite a las organizaciones adaptar las prácticas de gobierno a sus necesidades específicas, equilibrando la autonomía local con la supervisión centralizada

Retos y consideraciones para implantar la malla de datos

La malla de datos ha llamado mucho la atención desde su introducción en 2019. En la superficie, la malla de datos aborda muchos problemas existentes y puede proporcionar varios beneficios esenciales. Sin embargo, sigue siendo un concepto relativamente nuevo y aún no se ha materializado por completo en las ofertas existentes en el mercado. Hasta ahora, tiene una penetración de mercado del 5% al 20%, y Gartner predice que se volverá obsoleta antes de alcanzar la meseta de productividad en su Hype Cycle de 2023. Hay que tener en cuenta algunos factores antes de implantar la malla de datos

Personas y cambios culturales:

Mayores responsabilidades: Data Mesh impone responsabilidades significativas a los equipos de dominio, exigiéndoles que posean y gestionen productos de datos además de sus funciones actuales. Esto puede suponer una carga adicional, por lo que el establecimiento de incentivos y estructuras de apoyo es crucial para garantizar el éxito de la adopción
Falta de competencias: Los equipos de dominio pueden carecer de la experiencia necesaria para diseñar y gestionar eficazmente los productos de datos. Las competencias en modelado de datos, gestión del ciclo de vida, creación de API, SLA/SLO y gestión de dependencias son esenciales, pero pueden ser escasas. Para colmar estas lagunas es necesario impartir una formación adecuada y ajustar las funciones
Dinámica de equipo descentralizada: Optimizar la composición de los equipos multifuncionales, incluidos los científicos de datos, los ingenieros y DevOps, puede ser un desafío. Dedicar recursos a equipos de dominio puede resultar costoso e ineficaz, especialmente en dominios con demandas fluctuantes
Adecuación cultural: La cultura de una organización desempeña un papel crucial a la hora de determinar el éxito de la toma de decisiones descentralizada. La resistencia al cambio o la falta de apoyo a la autonomía basada en el dominio pueden impedir la adopción de la malla de datos

Proceso y estructura organizativa:

Límites de dominio y propiedad: Definir los límites de dominio y los niveles de propiedad adecuados es uno de los aspectos más difíciles de la implantación de la malla de datos. El proceso suele requerir la reevaluación y posible reestructuración de la organización para alinear las funciones operativas y analíticas con la propiedad del dominio
Gobernanza y colaboración: Todas las partes interesadas deben definir y aceptar claramente los modelos de gobernanza, los flujos de trabajo y los indicadores clave de rendimiento. El modelo de gobernanza federada es nuevo para muchas organizaciones, lo que exige reimaginar las estructuras y procesos existentes. La colaboración entre dominios debe mejorar para garantizar una integración sin fisuras y el cumplimiento de las políticas
Gestión del cambio: La implantación de la malla de datos suele requerir importantes cambios organizativos. Un proceso de gestión del cambio bien establecido es crucial para guiar la transición, mitigar la resistencia y garantizar el éxito del programa

Tecnología e infraestructuras:

Infraestructura de autoservicio: La creación de una infraestructura de datos de autoservicio a nivel de dominio requiere sofisticadas capacidades de la plataforma de datos, como la gobernanza federada, el linaje de datos, la interoperabilidad y los despliegues nativos en la nube. Estas capacidades aún están emergiendo y pueden requerir un complejo desarrollo personalizado y una elevada madurez operativa
Integración de sistemas heredados: Integrar los sistemas operativos heredados en un diseño basado en dominios puede resultar complicado. La transición suele ser larga y costosa, sobre todo para las organizaciones con importantes inversiones en sistemas heredados
Aplicación de políticas computables: La malla de datos se basa en políticas computables para el descubrimiento y la integración de datos. Sin embargo, las herramientas actuales no son totalmente compatibles con estas capacidades, y no existe un enfoque normalizado para la codificación de metadatos de políticas y la semántica operativa. El desarrollo de sofisticados sistemas basados en ontologías para el mapeo de contextos y la composición de dominios es necesario, pero sigue siendo un área de investigación en curso
Coste y complejidad: Desarrollar y mantener una arquitectura de malla de datos puede ser costoso y complejo, especialmente en grandes organizaciones con necesidades de datos diversas y distribuidas. Las organizaciones deben evaluar cuidadosamente los costes y beneficios potenciales antes de embarcarse en este camino

Conclusión¶

En 1970, Edgar F. Codd revolucionó el campo de la gestión de datos con la invención del álgebra relacional, un concepto arraigado en una sólida base teórica. Este avance condujo al desarrollo de las bases de datos relacionales y a la aparición de SQL, que ha seguido siendo el lenguaje dominante para el tratamiento de datos durante más de cincuenta años

Expertos como C.J. Date y Hugh Darwen sostuvieron durante años que, en teoría, las bases de datos relacionales podían manejar una amplia gama de cargas de datos. Sin embargo, las bases de datos relacionales existentes presentaban deficiencias específicas que la metodología de almacén de datos resolvió eficazmente. La metodología del almacén de datos ofrece una solución práctica que sigue siendo pertinente hoy en día, aunque carezca de una sólida base teórica

En cambio, las arquitecturas de datos modernas, como los data lakehouses, los data hubs y los data fabrics, carecen a menudo de un marco teórico cohesionado y no consiguen abordar con eficacia algunos de los retos actuales más complejos en materia de datos. Las discusiones sobre las distinciones entre estas arquitecturas pueden llegar a ser excesivamente académicas, recordando a los debates medievales sobre conceptos abstractos como el número de ángeles que caben en la cabeza de un alfiler. Esta situación pone de manifiesto la necesidad de principios arquitectónicos fundamentales que permitan diferenciar claramente una arquitectura de otra. Aunque estas arquitecturas modernas ofrecen herramientas valiosas, sigue siendo necesario algo más radical y fundacional

Mientras esperamos el próximo avance significativo en la arquitectura de datos, es probable que varios principios rectores sigan siendo pertinentes y aplicables a todas las arquitecturas de datos en un futuro previsible:

Separación entre almacenamiento y computación: En los sistemas tradicionales, el almacenamiento está estrechamente vinculado al motor de ejecución para optimizar el rendimiento. Sin embargo, este modelo limita fundamentalmente la escalabilidad. La separación del almacenamiento del cálculo, como se observa en las arquitecturas de lago de datos, seguirá dominando el procesamiento de datos analíticos. Los sistemas relacionales como Snowflake y AWS Aurora han adoptado esta disociación y confían en el almacenamiento de objetos escalable para obtener flexibilidad y escalabilidad
Duplicación de datos: Históricamente, los esfuerzos de procesamiento de datos se centraban en optimizar la disposición de los datos y minimizar su duplicación debido al elevado coste de almacenamiento. Hoy en día, el almacenamiento es barato, lo que permite a las organizaciones conservar los datos en bruto indefinidamente y volver a procesarlos cuando sea necesario. Conservar varias copias de los datos, sobre todo en distintos órdenes de clasificación, puede mejorar la eficacia del procesamiento. Sin embargo, aunque los costes de almacenamiento han disminuido, la gestión de datos sigue siendo compleja y costosa. Hay que prestar mucha atención al mantenimiento y la sincronización de estas copias adicionales
Gobernanza computacional de datos: Las prácticas de gobernanza de datos, incluidos el linaje y la procedencia de los datos, la calidad de los datos, la retención de datos y la gestión del ciclo de vida, y las políticas de seguridad, deben automatizarse e integrarse como ciudadanos de primera clase en cualquier plataforma de datos madura. Tradicionalmente, estos aspectos se trataban a posteriori, lo que dificultaba la agilidad y solidez de los sistemas de datos. Hacer hincapié en la gobernanza informática es esencial para mantener la integridad y fiabilidad de las plataformas de datos modernas
Los datos como producto: Tratar los datos como un producto puede democratizar el acceso, mejorar la calidad y ampliar las prácticas de gestión de datos. Este enfoque es especialmente beneficioso en operaciones de datos a gran escala, aunque puede no ser tan práctico para entornos de menor escala. No obstante, adoptar una mentalidad de producto para la gestión de datos puede mejorar significativamente la forma en que se manejan y utilizan los datos en toda la organización
La promesa de los servicios basados en IA: Aunque todavía están en sus inicios, los servicios basados en IA tienen un gran potencial para simplificar y automatizar tareas complejas como la clasificación de datos, la integración de datos y el análisis avanzado de datos. Estos servicios podrían desempeñar un papel crucial a la hora de abordar algunos de los retos a los que se enfrentan las arquitecturas de datos actuales, proporcionando nuevas formas de gestionar y analizar datos a escala

En resumen, aunque las arquitecturas de datos modernas aún no han alcanzado todo su potencial, los principios rectores descritos anteriormente proporcionan una base sólida para crear y gestionar sistemas de datos eficaces. A medida que la tecnología siga evolucionando, estos principios ayudarán a las organizaciones a sortear las complejidades de la gestión de datos y a prepararse para la próxima oleada de innovaciones en este campo