Azure Databricks es una plataforma de análisis de datos optimizada de Databricks para el servicio cloud de Microsoft. Nace de la colaboración de Microsoft, Apache y Databricks. Apache Spark permite lanzar potentes algoritmos analíticos sobre grandes cantidades de datos y en tiempo real. Utilizar Azure Databricks aporta muchas ventajas a los perfiles profesionales de la Data, en particular para los Data Engineers y los Data Scientists, ya que fue diseñado para el rendimiento y la rentabilidad en la nube.

Pre-requisitos:

  • Conocimiento básico de la plataforma Azure.
  • Tener una cuenta gratuita en Azure.

Objetivo general:

La especialización le permitirá al participante aplicar los conceptos y herramientas principales de la plataforma Azure Databricks, y desarrollar sus capacidades de análisis, integración, procesamiento y visualización sobre una arquitectura de procesamiento analítico.

Objetivos específicos:

  • Conocer los fundamentos de los servicios de la nube Azure, manipular y consultar datos relacionales y no relacionales en esta plataforma, concluyendo con la creación del servicio Databricks.
  • Realizar la lectura y escritura de datos de diferentes formatos en los servicios Azure. Así como utilizar Spark Query Execution a través de Jobs, Stages, Tasks y Joins.
  • Desarrollar un proceso de lectura de datos para Streaming con Apache Kafka; preparar un Delta Lake e implementar un proceso Near Real Time.
  • Crear un endpoint SQL, configurar usuarios y ejecutar consultas en él. Finalizará con la creación de un dashboard en Databricks SQL para su posterior conexión con Power BI.
  • Gestionar la seguridad en Azure Databricks a través del uso de objetos como Key Vault, Log Analytics, RBAC, ACL, entre otros. Se complementa con la monitorización en Azure Databricks y la creación de informes de Ganglia.

Resumen de contenido de la Especialización en Databricks with Azure:

Azure & Databricks Fundamentals:

  • Azure fundamentals
  • Arquitectura y creación de servicio de databricks
  • Explorar los conceptos de datos relacionales, no relacionales, y análisis de almacenamiento moderno
  • Apache spark, pyspark, clústeres e integración en databricks

Data Store & Spark Querying:

  • Lectura y escritura de diversos formatos de datos en servicios Azure
  • Dataframe y fuentes de datos
  • Creación y operaciones de dataframes en PySpark
  • Tipos de join en dataframes
  • Consultas SQL en PySpark
  • Comprensión Spark Query Execution
  • DataBricks Koalas: API de Pandas para Apache Spark
  • Creación y manipulación de dataframes con koalas

Databricks SQL:

  • Creación de endpoints
  • Ejecución de consultas
  • Creación y guardado de dataframes en databricks
  • Transformación y visualización de datos en databricks
  • Dashboards en Databricks

DevOps. Seguridad y Monitoreo:

  • Integraciones DevOps e implementaciones CI/CD
  • Canalización de CI/CD de Azure DataBricks: Integraciones continuas
  • Desarrollo y confirmación de código
  • Canalización de compilación y configuración del agente
  • Obtención de cambios y pruebas unitarias
  • Gestión de versiones de código
  • Key Vault y Log Analytics
  • Seguridad y monitoreo
product_img1
Inversión: S/1,295.00 S/1,850.00
Inicio: 20/06/2024
Fin: 08/08/24
52 hrs. académicas
Online, 100% en vivo
13 sesiones
Ma - Ju / 7:30PM - 10:30PM
Certificado de aprobación