Saltar a contenido

Pila de Datos

¿Qué es una pila de datos (Data Stack)?

En tecnología, el término stack (pila) se utiliza para describir un grupo de componentes que cooperan conjuntamente para alcanzar un objetivo común. Los ingenieros de software reutilizan una misma pila tecnológica para crear productos con diversos fines. Del mismo modo, una pila de datos se refiere al conjunto interconectado de métodos, técnicas y herramientas que permiten a las empresas recopilar, almacenar, procesar y analizar datos de forma escalable y rentable. El objetivo final de una pila de datos es transformar los datos crudos en información valiosa que sirva de base para la toma de decisiones

Evolución histórica

Históricamente las organizaciones diseñaron e implementaron infraestructuras de datos basadas en arquitecturas monolíticas y componentes personalizados (ad-hoc) que requerían importantes inversiones en infraestructura y personal de TI. Debido al carácter local del procesamiento de datos, la escalabilidad del rendimiento estaba limitada por la capacidad del hardware instalado, lo que la convertía en una estructura compleja, rígida y costosa de mantener y escalar

Por el contrario, los pipelines que constituyen una arquitectura de pila de datos moderna (sección Arquitectura MDS) explotan indistintamente fuentes de datos locales como remotas. De igual manera, se integran componentes listos para usar que se centran en aspectos específicos del procesamiento y la gestión de datos. Este enfoque modular hace que el MDS sea altamente escalable y mucho más fácil de gestionar

Otro aspecto singular de este nuevo modelo es la democratización de la tecnología. Muchas herramientas MDS son del tipo open-source, cuentan con el soporte activo de comunidades y se ofrecen como SaaS (Software as a Service) u open core

Las herramientas de pila de datos moderna están diseñadas para ser fáciles de usar, con un diseño de bajo código, o incluso sin código, y con modelos de precios basados en el uso que las hacen accesibles a empresas de todos los niveles

Una arquitectura de pila de datos moderna suele considerar seis áreas o dimensiones cada una de las cuales incorpora un conjunto distinto de tecnologías que funcionan conjuntamente para proporcionar funcionalidades específicas. Este marco permite una amplia gama de casos de uso, desde el análisis hasta la inteligencia empresarial, la ciencia de datos y el aprendizaje automático. La composición concreta de una pila de datos moderna depende de las necesidades específicas y la escala de una organización que determinan si un componente concreto se resuelve con una única herramienta o requiere una combinación de varias herramientas