Data Mesh es un concepto relativamente nuevo en la gesti贸n de datos, introducido como enfoque sociot茅cnico para compartir, acceder y gestionar datos anal铆ticos en entornos complejos a gran escala, tanto dentro de las organizaciones como entre ellas. Seg煤n Gartner, Data Mesh se encuentra actualmente en el punto 谩lgido de las expectativas infladas, lo que pone de relieve su creciente inter茅s y escrutinio. Es importante se帽alar que Data Mesh no es una arquitectura de datos en el sentido tradicional, sino m谩s bien un cambio de paradigma en la forma en que las organizaciones abordan la propiedad, la gesti贸n y la gobernanza de los datos.
Cambios fundamentales introducidos por la malla de datos
- Cambio organizativo: La malla de datos aboga por pasar de la propiedad centralizada de los datos, gestionada tradicionalmente por equipos especializados, a un modelo descentralizado en el que la propiedad y la responsabilidad de los datos se devuelven a los 谩mbitos empresariales en los que se originan o se utilizan m谩s activamente
- Cambio arquitect贸nico: En lugar de basarse en almacenes o lagos de datos monol铆ticos, Data Mesh propone un sistema distribuido en el que los datos se conectan y a los que se accede a trav茅s de protocolos estandarizados. Este enfoque favorece una arquitectura de datos m谩s escalable y flexible
- Cambio tecnol贸gico: En Data Mesh, los datos son tratados como ciudadanos de primera clase, no como un mero subproducto de la ejecuci贸n de c贸digo pipeline. Los datos y el c贸digo que los mantiene se consideran unidades aut贸nomas y vivas que pueden evolucionar independientemente
- Cambio operativo: La gobernanza de los datos pasa de un modelo descendente y centralizado, con una importante intervenci贸n humana, a un modelo federado. En este modelo, las pol铆ticas de gobernanza se integran computacionalmente en los nodos de la malla, lo que permite unas pr谩cticas de gobernanza m谩s din谩micas y escalables
- Cambio del sistema de valores: La perspectiva fundamental sobre los datos pasa de tratarlos como un activo est谩tico que hay que recopilar a verlos como un producto dise帽ado para servir y deleitar a sus usuarios
Principios b谩sicos del dise帽o de mallas de datos
- Propiedad de datos descentralizada y orientada al dominio: La propiedad de los datos anal铆ticos se descentraliza a los dominios de negocio, facultando a los m谩s cercanos a los datos para gestionarlos y compartirlos. Este principio se alinea con el dise帽o orientado al dominio (DDD) y subraya la importancia de la experiencia del dominio en la gesti贸n de datos
- Los datos como producto: La malla de datos requiere que los 谩mbitos empresariales traten sus datos como un producto, abstrayendo la complejidad subyacente y garantizando que sean descubribles, comprensibles, direccionables, fiables, seguros, interoperables, accesibles y valiosos
- Infraestructura de datos de autoservicio: La arquitectura promueve una infraestructura de datos de autoservicio que permite a los equipos orientados a los dominios gestionar todo el ciclo de vida de los datos, desde su adquisici贸n hasta su democratizaci贸n, sin depender en gran medida de equipos de TI centralizados
- Gobernanza computacional federada: La gobernanza en una malla de datos est谩 federada, y cada equipo de dominio de datos es responsable de sus productos de datos locales al tiempo que se adhiere a las pol铆ticas de gobernanza globales. Este enfoque garantiza que los datos sean detectables, seguros, fiables y reutilizables en toda la organizaci贸n
Ventajas de la malla de datos
- Productos de datos personalizados: Data Mesh permite la entrega de productos de datos personalizados que satisfacen demandas empresariales espec铆ficas, vinculando objetivos empresariales estrat茅gicos con un ecosistema din谩mico de productos de datos
- Escalabilidad a trav茅s de la descentralizaci贸n: Al descentralizar la propiedad y aprovechar la experiencia espec铆fica del dominio, Data Mesh escala la entrega de productos de datos y fomenta un cambio cultural hacia una mentalidad de productos de datos
- Agilidad mejorada: Al descomponer las arquitecturas monol铆ticas y centralizadas y abstraer la complejidad, Data Mesh mejora la agilidad organizativa, lo que permite responder con mayor rapidez a las necesidades empresariales
- Modelo de gobernanza flexible: El modelo de gobierno federado permite a las organizaciones adaptar las pr谩cticas de gobierno a sus necesidades espec铆ficas, equilibrando la autonom铆a local con la supervisi贸n centralizada
Retos y consideraciones para implantar la malla de datos
La malla de datos ha llamado mucho la atenci贸n desde su introducci贸n en 2019. En la superficie, la malla de datos aborda muchos problemas existentes y puede proporcionar varios beneficios esenciales. Sin embargo, sigue siendo un concepto relativamente nuevo y a煤n no se ha materializado por completo en las ofertas existentes en el mercado. Hasta ahora, tiene una penetraci贸n de mercado del 5% al 20%, y Gartner predice que se volver谩 obsoleta antes de alcanzar la meseta de productividad en su Hype Cycle de 2023. Hay que tener en cuenta algunos factores antes de implantar la malla de datos
Personas y cambios culturales:
- Mayores responsabilidades: Data Mesh impone responsabilidades significativas a los equipos de dominio, exigi茅ndoles que posean y gestionen productos de datos adem谩s de sus funciones actuales. Esto puede suponer una carga adicional, por lo que el establecimiento de incentivos y estructuras de apoyo es crucial para garantizar el 茅xito de la adopci贸n
- Falta de competencias: Los equipos de dominio pueden carecer de la experiencia necesaria para dise帽ar y gestionar eficazmente los productos de datos. Las competencias en modelado de datos, gesti贸n del ciclo de vida, creaci贸n de API, SLA/SLO y gesti贸n de dependencias son esenciales, pero pueden ser escasas. Para colmar estas lagunas es necesario impartir una formaci贸n adecuada y ajustar las funciones
- Din谩mica de equipo descentralizada: Optimizar la composici贸n de los equipos multifuncionales, incluidos los cient铆ficos de datos, los ingenieros y DevOps, puede ser un desaf铆o. Dedicar recursos a equipos de dominio puede resultar costoso e ineficaz, especialmente en dominios con demandas fluctuantes
- Adecuaci贸n cultural: La cultura de una organizaci贸n desempe帽a un papel crucial a la hora de determinar el 茅xito de la toma de decisiones descentralizada. La resistencia al cambio o la falta de apoyo a la autonom铆a basada en el dominio pueden impedir la adopci贸n de la malla de datos
Proceso y estructura organizativa:
- L铆mites de dominio y propiedad: Definir los l铆mites de dominio y los niveles de propiedad adecuados es uno de los aspectos m谩s dif铆ciles de la implantaci贸n de la malla de datos. El proceso suele requerir la reevaluaci贸n y posible reestructuraci贸n de la organizaci贸n para alinear las funciones operativas y anal铆ticas con la propiedad del dominio
- Gobernanza y colaboraci贸n: Todas las partes interesadas deben definir y aceptar claramente los modelos de gobernanza, los flujos de trabajo y los indicadores clave de rendimiento. El modelo de gobernanza federada es nuevo para muchas organizaciones, lo que exige reimaginar las estructuras y procesos existentes. La colaboraci贸n entre dominios debe mejorar para garantizar una integraci贸n sin fisuras y el cumplimiento de las pol铆ticas
- Gesti贸n del cambio: La implantaci贸n de la malla de datos suele requerir importantes cambios organizativos. Un proceso de gesti贸n del cambio bien establecido es crucial para guiar la transici贸n, mitigar la resistencia y garantizar el 茅xito del programa
Tecnolog铆a e infraestructuras:
- Infraestructura de autoservicio: La creaci贸n de una infraestructura de datos de autoservicio a nivel de dominio requiere sofisticadas capacidades de la plataforma de datos, como la gobernanza federada, el linaje de datos, la interoperabilidad y los despliegues nativos en la nube. Estas capacidades a煤n est谩n emergiendo y pueden requerir un complejo desarrollo personalizado y una elevada madurez operativa
- Integraci贸n de sistemas heredados: Integrar los sistemas operativos heredados en un dise帽o basado en dominios puede resultar complicado. La transici贸n suele ser larga y costosa, sobre todo para las organizaciones con importantes inversiones en sistemas heredados
- Aplicaci贸n de pol铆ticas computables: La malla de datos se basa en pol铆ticas computables para el descubrimiento y la integraci贸n de datos. Sin embargo, las herramientas actuales no son totalmente compatibles con estas capacidades, y no existe un enfoque normalizado para la codificaci贸n de metadatos de pol铆ticas y la sem谩ntica operativa. El desarrollo de sofisticados sistemas basados en ontolog铆as para el mapeo de contextos y la composici贸n de dominios es necesario, pero sigue siendo un 谩rea de investigaci贸n en curso
- Coste y complejidad: Desarrollar y mantener una arquitectura de malla de datos puede ser costoso y complejo, especialmente en grandes organizaciones con necesidades de datos diversas y distribuidas. Las organizaciones deben evaluar cuidadosamente los costes y beneficios potenciales antes de embarcarse en este camino
Conclusi贸n¶
En 1970, Edgar F. Codd revolucion贸 el campo de la gesti贸n de datos con la invenci贸n del 谩lgebra relacional, un concepto arraigado en una s贸lida base te贸rica. Este avance condujo al desarrollo de las bases de datos relacionales y a la aparici贸n de SQL, que ha seguido siendo el lenguaje dominante para el tratamiento de datos durante m谩s de cincuenta a帽os
Expertos como C.J. Date y Hugh Darwen sostuvieron durante a帽os que, en teor铆a, las bases de datos relacionales pod铆an manejar una amplia gama de cargas de datos. Sin embargo, las bases de datos relacionales existentes presentaban deficiencias espec铆ficas que la metodolog铆a de almac茅n de datos resolvi贸 eficazmente. La metodolog铆a del almac茅n de datos ofrece una soluci贸n pr谩ctica que sigue siendo pertinente hoy en d铆a, aunque carezca de una s贸lida base te贸rica
En cambio, las arquitecturas de datos modernas, como los data lakehouses, los data hubs y los data fabrics, carecen a menudo de un marco te贸rico cohesionado y no consiguen abordar con eficacia algunos de los retos actuales m谩s complejos en materia de datos. Las discusiones sobre las distinciones entre estas arquitecturas pueden llegar a ser excesivamente acad茅micas, recordando a los debates medievales sobre conceptos abstractos como el n煤mero de 谩ngeles que caben en la cabeza de un alfiler. Esta situaci贸n pone de manifiesto la necesidad de principios arquitect贸nicos fundamentales que permitan diferenciar claramente una arquitectura de otra. Aunque estas arquitecturas modernas ofrecen herramientas valiosas, sigue siendo necesario algo m谩s radical y fundacional
Mientras esperamos el pr贸ximo avance significativo en la arquitectura de datos, es probable que varios principios rectores sigan siendo pertinentes y aplicables a todas las arquitecturas de datos en un futuro previsible:
- Separaci贸n entre almacenamiento y computaci贸n: En los sistemas tradicionales, el almacenamiento est谩 estrechamente vinculado al motor de ejecuci贸n para optimizar el rendimiento. Sin embargo, este modelo limita fundamentalmente la escalabilidad. La separaci贸n del almacenamiento del c谩lculo, como se observa en las arquitecturas de lago de datos, seguir谩 dominando el procesamiento de datos anal铆ticos. Los sistemas relacionales como Snowflake y AWS Aurora han adoptado esta disociaci贸n y conf铆an en el almacenamiento de objetos escalable para obtener flexibilidad y escalabilidad
- Duplicaci贸n de datos: Hist贸ricamente, los esfuerzos de procesamiento de datos se centraban en optimizar la disposici贸n de los datos y minimizar su duplicaci贸n debido al elevado coste de almacenamiento. Hoy en d铆a, el almacenamiento es barato, lo que permite a las organizaciones conservar los datos en bruto indefinidamente y volver a procesarlos cuando sea necesario. Conservar varias copias de los datos, sobre todo en distintos 贸rdenes de clasificaci贸n, puede mejorar la eficacia del procesamiento. Sin embargo, aunque los costes de almacenamiento han disminuido, la gesti贸n de datos sigue siendo compleja y costosa. Hay que prestar mucha atenci贸n al mantenimiento y la sincronizaci贸n de estas copias adicionales
- Gobernanza computacional de datos: Las pr谩cticas de gobernanza de datos, incluidos el linaje y la procedencia de los datos, la calidad de los datos, la retenci贸n de datos y la gesti贸n del ciclo de vida, y las pol铆ticas de seguridad, deben automatizarse e integrarse como ciudadanos de primera clase en cualquier plataforma de datos madura. Tradicionalmente, estos aspectos se trataban a posteriori, lo que dificultaba la agilidad y solidez de los sistemas de datos. Hacer hincapi茅 en la gobernanza inform谩tica es esencial para mantener la integridad y fiabilidad de las plataformas de datos modernas
- Los datos como producto: Tratar los datos como un producto puede democratizar el acceso, mejorar la calidad y ampliar las pr谩cticas de gesti贸n de datos. Este enfoque es especialmente beneficioso en operaciones de datos a gran escala, aunque puede no ser tan pr谩ctico para entornos de menor escala. No obstante, adoptar una mentalidad de producto para la gesti贸n de datos puede mejorar significativamente la forma en que se manejan y utilizan los datos en toda la organizaci贸n
- La promesa de los servicios basados en IA: Aunque todav铆a est谩n en sus inicios, los servicios basados en IA tienen un gran potencial para simplificar y automatizar tareas complejas como la clasificaci贸n de datos, la integraci贸n de datos y el an谩lisis avanzado de datos. Estos servicios podr铆an desempe帽ar un papel crucial a la hora de abordar algunos de los retos a los que se enfrentan las arquitecturas de datos actuales, proporcionando nuevas formas de gestionar y analizar datos a escala
En resumen, aunque las arquitecturas de datos modernas a煤n no han alcanzado todo su potencial, los principios rectores descritos anteriormente proporcionan una base s贸lida para crear y gestionar sistemas de datos eficaces. A medida que la tecnolog铆a siga evolucionando, estos principios ayudar谩n a las organizaciones a sortear las complejidades de la gesti贸n de datos y a prepararse para la pr贸xima oleada de innovaciones en este campo