Docker4DataEngineers

Contenedores

Máquinas Virtuales

docker containerized appliction blue border 2

Los contenedores son una abstracción en la capa de la aplicación que agrupa el código y las dependencias. Se pueden ejecutar varios contenedores en la misma máquina de tal forma que el núcleo del sistema operativo es compartido con otros contenedores, cada uno de los cuales se ejecuta como un proceso aislado en el espacio de usuario. Como resultado, demandan menos recursos que las máquinas virtuales

Las máquinas virtuales (VM) son una abstracción del hardware físico que convierte un servidor en muchos servidores. El hipervisor permite que varias máquinas virtuales se ejecuten en una sola máquina. Cada máquina virtual incluye una copia completa del sistema operativo, la aplicación, los binarios y las bibliotecas necesarios, lo que ocupa decenas de GB. Las máquinas virtuales también pueden resultar excesivamente lentas al arrancar

Como ingenieros de datos, gestionar entornos complejos puede ser un verdadero reto. A menudo se utilizan los entornos virtuales Python para aislar las dependencias pero esta solución dista mucho de ser completa. Las herramientas de virtualización como los contenedores ligeros no solo aportan comodidad, sino que son fundamentales para gestionar la creciente complejidad de los flujos de trabajo de datos modernos

Identificación de los retos¶

Configuración del entorno local: La configuración de entornos locales de desarrollo a menudo es una pesadilla. Problemas con las versiones de librerías, diferencias entre sistemas operativos (Mac, Linux, Windows), etc. Pero lo peor es que son siempre los mismos problemas, una y otra vez 🤯🤯🤯
Incompatibilidad entre sistemas operativos: Habitualmente, los equipos de trabajo se localizan en diferentes ubicaciones, cada uno con su propia tecnología. Mantener entornos coherentes en estos diferentes sistemas utilizando métodos tradicionales resulta enormemente complicado
Pruebas lentas e ineficaces: Las pruebas en máquinas locales a menudo no representan los entornos de producción. Ello provoca que los errores se detecten demasiado tarde en el ciclo de desarrollo. Incluso, al final se necesita enviar el código o subsistema al entorno de producción solo para probarlo 🤯🤯🤯

Contribución de Docker al flujo de trabajo¶

A medida que los flujos de datos se vuelven cada vez más complejos, la contenerización y la orquestación agilizan el proceso, minimizan los errores y aumentan la productividad. Por ejemplo, los orquestadores como Airflow pueden escalar dinámicamente los recursos para manejar cargas de trabajo fluctuantes, lo que supone un cambio revolucionario para los equipos que gestionan proyectos de datos a gran escala. Tanto si se trata de sistemas distribuidos, aplicaciones nativas de la nube o ETLs estas herramientas pueden mejorar drásticamente la eficiencia y sus perspectivas profesionales de los ingenieros de datos

Cuando se manejan grandes cantidades de datos y flujos de trabajo complejos, la coherencia es fundamental. Imaginemos, por ejemplo, el desarrollo de un proceso altamente eficiente que funciona a la perfección en la máquina local, pero que explota en el momento en que se despliega en producción: esa es una pesadilla que todo ingeniero de datos teme. Docker actúa como un «buque portacontenedores» virtual para sus aplicaciones y dependencias, garantizando que se muevan sin problemas entre entornos

Tutoriales para principiantes¶

Docker for Data Engineers: Guide for Beginners and Data Engineers
Impagable Docker TutorialsPoint
Guru99 Tutorial
Docker Tutorial Labs
- Se recomiendan especialmente los Labs de MySQL/MariaDB y Joomla

MariaDB/MySQL con Docker¶

Creación de un contenedor Docker con MySQL Server
Docker && MariaDB
Laboratorio Docker LAMP

etsiinf-jupydbt

Imagen Docker con Jupyter, DuckDB y dbt

etsiinf-jupydbt