Saltar a contenido

Ingeniería de Datos

Definición
Ingeniería vs Ciencia
La Ingeniería de Datos (Data Engineering) es la práctica de diseñar y crear sistemas que recopilan, transforman y distribuyen datos en toda una organización. Por tanto, tiene como principal propósito lograr que los datos crudos, sin procesar, sean utilizables, fiables y estén listos para su análisis cuando se requiere

A diferencia de la Ciencia de Datos (Data Science) no responde a preguntas sino que el objetivo es únicamente garantizar que los datos existan, sean fiables y estén en el formato adecuado que hace posible responder las preguntas
IngData.png

Con la explosión global del volumen de de los datos generados por sensores, redes sociales, dispositivos IoT y otras fuentes digitales las organizaciones necesitan sistemas escalables capaces de gestionarlo todo, desde cargas de trabajo por lotes hasta eventos en tiempo real. Para facilitar comprender cómo estructurar y analizar esta información se han definido cinco principios clave conocidos como las 5Vs del Big Data:

  • Validez: integridad y corrección de dato
  • Variabilidad: el sistema debe ser dinámico, cambiante
  • Volatilidad: cambios en la dimensión temporal
  • Vulnerabilidad: robustez ante fallos y/o ataques
  • Visualización: visualizar la utilidad de la información

Gestionar las 5Vs supone para las organizaciones un reto monumental. Cada Data Pipeline en la pila de datos representa uno de los ladrillos con los que se construye las Infraestructuras de Big Data

Nociones Metodológicas Básicas: Ciclo de Vida

Fases
Retos
Diagrama
- Data Collection
- Data Storage
- Data Transformation
- Data Analysis
- Data Governance & Security
- Fragmented data sources
- Maintaining quality at scale
- Balancing real-time and batch needs
- Rapidly evolving tooling
- Ensuring governance and security
CicloVida.png