Azure Databricks es una plataforma de análisis de datos optimizada de Databricks para el servicio cloud de Microsoft. Nace de la colaboración de Microsoft, Apache y Databricks. Apache Spark permite lanzar potentes algoritmos analíticos sobre grandes cantidades de datos y en tiempo real. Utilizar Azure Databricks aporta muchas ventajas a los perfiles profesionales de la Data, en particular para los Data Engineers y los Data Scientists, ya que fue diseñado para el rendimiento y la rentabilidad en la nube.
Pre-requisitos:
- Conocimiento básico de la plataforma Azure.
- Tener una cuenta gratuita en Azure.
Objetivo general:
La especialización le permitirá al participante aplicar los conceptos y herramientas principales de la plataforma Azure Databricks, y desarrollar sus capacidades de análisis, integración, procesamiento y visualización sobre una arquitectura de procesamiento analítico.
Objetivos específicos:
- Conocer los fundamentos de los servicios de la nube Azure, manipular y consultar datos relacionales y no relacionales en esta plataforma, concluyendo con la creación del servicio Databricks.
- Realizar la lectura y escritura de datos de diferentes formatos en los servicios Azure. Así como utilizar Spark Query Execution a través de Jobs, Stages, Tasks y Joins.
- Desarrollar un proceso de lectura de datos para Streaming con Apache Kafka; preparar un Delta Lake e implementar un proceso Near Real Time.
- Crear un endpoint SQL, configurar usuarios y ejecutar consultas en él. Finalizará con la creación de un dashboard en Databricks SQL para su posterior conexión con Power BI.
- Gestionar la seguridad en Azure Databricks a través del uso de objetos como Key Vault, Log Analytics, RBAC, ACL, entre otros. Se complementa con la monitorización en Azure Databricks y la creación de informes de Ganglia.
Resumen de contenido de la Especialización en Databricks with Azure:
Azure & Databricks Fundamentals:
- Azure fundamentals
- Arquitectura y creación de servicio de databricks
- Explorar los conceptos de datos relacionales, no relacionales, y análisis de almacenamiento moderno
- Apache spark, pyspark, clústeres e integración en databricks
Data Store & Spark Querying:
- Lectura y escritura de diversos formatos de datos en servicios Azure
- Dataframe y fuentes de datos
- Creación y operaciones de dataframes en PySpark
- Tipos de join en dataframes
- Consultas SQL en PySpark
- Comprensión Spark Query Execution
- DataBricks Koalas: API de Pandas para Apache Spark
- Creación y manipulación de dataframes con koalas
Databricks SQL:
- Creación de endpoints
- Ejecución de consultas
- Creación y guardado de dataframes en databricks
- Transformación y visualización de datos en databricks
- Dashboards en Databricks
DevOps. Seguridad y Monitoreo:
- Integraciones DevOps e implementaciones CI/CD
- Canalización de CI/CD de Azure DataBricks: Integraciones continuas
- Desarrollo y confirmación de código
- Canalización de compilación y configuración del agente
- Obtención de cambios y pruebas unitarias
- Gestión de versiones de código
- Key Vault y Log Analytics
- Seguridad y monitoreo

Inversión:
S/1,295.00
S/1,850.00
Inicio:
20/06/2024
Fin: 08/08/24
52 hrs. académicas
Online, 100% en vivo
13 sesiones
Ma - Ju / 7:30PM - 10:30PM
Certificado de aprobación