Programa del Curso

Sección 1: Data Management en HDFS

  • Diversos Formatos de Datos (JSON / Avro / Parquet)
  • Estrategias de Compresión
  • Masqueo de Datos
  • Laboratorios: Análisis de diferentes formatos de datos; habilitando compresión

Sección 2: Pig Avanzado

  • Funciones Definidas por el Usuario
  • Introducción a las Bibliotecas de Pig (ElephantBird / Data-Fu)
  • Carga de Datos Estructurados Complejos usando Pig
  • Ajuste de Pig
  • Laboratorios: scripting avanzado en Pig, análisis de tipos de datos complejos

Sección 3 : Avanzado Hive

  • Funciones Definidas por el Usuario
  • Tablas Comprimidas
  • Ajuste de Rendimiento en Hive
  • Laboratorios: creación de tablas comprimidas, evaluación de formatos y configuraciones de tabla

Sección 4 : HBase Avanzado

  • Diseño de Esquemas Avanzados
  • Compresión
  • Ingesta Masiva de Datos
  • Comparación de Tablas Anchas y Altas
  • HBase y Pig
  • HBase y Hive
  • Ajuste de Rendimiento en HBase
  • Laboratorios: ajuste de HBase; acceso a datos de HBase desde Pig & Hive; Uso de Phoenix para modelado de datos

Requerimientos

  • familiaridad con el lenguaje de programación Java (la mayoría de los ejercicios de programación están en Java)
  • comodidad en un entorno Linux (debe ser capaz de navegar por la línea de comandos de Linux, editar archivos usando vi / nano)
  • conocimiento práctico de Hadoop.

Entorno de laboratorio

Instalación cero: No es necesario instalar software de Hadoop en las máquinas de los estudiantes. Se proporcionará un clúster de Hadoop funcional para los estudiantes.

Los estudiantes necesitarán lo siguiente

 21 Horas

Número de participantes


Precio por Participante​

Testimonios (5)

Próximos cursos

Categorías Relacionadas