Curso de Python, Spark, and Hadoop for Big Data
Python es un lenguaje de programación escalable, flexible y ampliamente utilizado para la ciencia de datos y el aprendizaje automático. Spark es un motor de procesamiento de datos que se utiliza para consultar, analizar y transformar big data, mientras que Hadoop es un marco de biblioteca de software para el almacenamiento y el procesamiento de datos a gran escala.
Esta capacitación en vivo dirigida por un instructor (en línea o presencial) está dirigida a desarrolladores que desean usar e integrar Spark, Hadoop y Python para procesar, analizar y transformar conjuntos de datos grandes y complejos.
Al final de esta formación, los participantes serán capaces de:
- Configure el entorno necesario para empezar a procesar macrodatos con Spark, Hadoop y Python.
- Comprender las características, los componentes principales y la arquitectura de Spark y Hadoop.
- Aprenda a integrar Spark, Hadoop y Python para el procesamiento de big data.
- Explore las herramientas del ecosistema de Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka y Flume).
- Cree sistemas de recomendación de filtrado colaborativo similares a Netflix, YouTube, Amazon, Spotify y Google.
- Utilice Apache Mahout para escalar los algoritmos de aprendizaje automático.
Formato del curso
- Charla y discusión interactiva.
- Muchos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso, póngase en contacto con nosotros para concertarlo.
Programa del Curso
Introducción
- Información general sobre las características y la arquitectura de Spark y Hadoop
- Entendiendo el big data
- Python Conceptos básicos de programación
Empezar
- Configuración de Python, Spark y Hadoop
- Descripción de las estructuras de datos en Python
- Descripción de la API PySpark
- Descripción de HDFS y MapReduce
Integración de Spark y Hadoop con Python
- Implementación de Spark RDD en Python
- Procesamiento de datos mediante MapReduce
- Creación de conjuntos de datos distribuidos en HDFS
Machine Learning con Spark MLlib
Procesamiento Big Data con Spark Streaming
Trabajar con sistemas de recomendación
Trabajar con Kafka, Sqoop, Kafka y Flume
Apache Mahout con Spark y Hadoop
Solución de problemas
Resumen y próximos pasos
Requerimientos
- Experiencia con Spark y Hadoop
- Python Experiencia en programación
Audiencia
- Científicos de datos
- Desarrolladores
Los cursos de formación abiertos requieren más de 5 participantes.
Curso de Python, Spark, and Hadoop for Big Data - Booking
Curso de Python, Spark, and Hadoop for Big Data - Enquiry
Python, Spark, and Hadoop for Big Data - Consultas
Consultas
Testimonios (3)
El hecho de que hayamos podido llevar consigo la mayor parte de la información/curso/presentación/ejercicios realizados, para poder revisarlos y tal vez repetir lo que no entendimos la primera vez o mejorar lo que ya hicimos.
Raul Mihail Rat - Accenture Industrial SS
Curso - Python, Spark, and Hadoop for Big Data
Traducción Automática
Me gustó que logró sentar las bases del tema y llegar a algunos ejercicios bastante avanzados. También proporcionó formas sencillas de escribir/probar el código.
Ionut Goga - Accenture Industrial SS
Curso - Python, Spark, and Hadoop for Big Data
Traducción Automática
Los ejemplos en vivo
Ahmet Bolat - Accenture Industrial SS
Curso - Python, Spark, and Hadoop for Big Data
Traducción Automática
Próximos cursos
Cursos Relacionados
Inteligencia Artificial - La Materia más Aplicada - Análisis de Datos + AI Distribuido + PNL
21 HorasEste curso está dirigido a desarrolladores y científicos de datos que quieran comprender e implementar la IA en sus aplicaciones. Se presta especial atención al análisis de datos, la inteligencia artificial distribuida y el procesamiento del lenguaje natural.
Big Data Analytics with Google Colab and Apache Spark
14 HorasEsta capacitación en vivo dirigida por un instructor en Ecuador (en línea o presencial) está dirigida a científicos e ingenieros de datos de nivel intermedio que deseen usar Google Colab y Apache Spark para el procesamiento y análisis de big data.
Al final de esta formación, los participantes serán capaces de:
- Configure un entorno de big data con Google Colab y Spark.
- Procese y analice grandes conjuntos de datos de manera eficiente con Apache Spark.
- Visualice big data en un entorno colaborativo.
- Integre Apache Spark con herramientas basadas en la nube.
Introducción a Graph Computing
28 HorasEn esta capacitación en vivo dirigida por un instructor en Ecuador, los participantes aprenderán sobre las ofertas tecnológicas y los enfoques de implementación para el procesamiento de datos de gráficos. El objetivo es identificar objetos del mundo real, sus características y relaciones, luego modelar estas relaciones y procesarlas como datos utilizando un enfoque Graph Computing (también conocido como análisis de grafos). Comenzamos con una visión general amplia y nos limitamos a herramientas específicas a medida que avanzamos a través de una serie de estudios de casos, ejercicios prácticos e implementaciones en vivo.
Al final de esta formación, los participantes serán capaces de:
- Comprenda cómo se conservan y atraviesan los datos de los gráficos.
- Seleccione el mejor marco para una tarea determinada (desde bases de datos de grafos hasta marcos de procesamiento por lotes).
- Implemente Hadoop, Spark, GraphX y Pregel para llevar a cabo el cálculo de grafos en muchas máquinas en paralelo.
- Vea problemas de big data del mundo real en términos de gráficos, procesos y recorridos.
Hortonworks Data Platform (HDP) para Administradores
21 HorasEsta capacitación en vivo dirigida por un instructor en Ecuador (en línea o presencial) presenta Hortonworks Data Platform (HDP) y guía a los participantes a través de la implementación de la solución Spark + Hadoop.
Al final de esta formación, los participantes serán capaces de:
- Utilice Hortonworks para ejecutar Hadoop de forma fiable a gran escala.
- Unifique las capacidades de seguridad, gobernanza y operaciones de Hadoop con los flujos de trabajo analíticos ágiles de Spark.
- Utilice Hortonworks para investigar, validar, certificar y dar soporte a cada uno de los componentes de un proyecto de Spark.
- Procese diferentes tipos de datos, incluidos los estructurados, no estructurados, en movimiento y en reposo.
Análisis de Datos con Hive / HiveQL
7 HorasEste curso cubre cómo usar el lenguaje Hive SQL (AKA: Hive HQL, SQL en Hive, HiveQL) para personas que extraen datos de Hive
Impala para Inteligencia Empresarial
21 HorasCloudera Impala es un motor de consulta SQL de procesamiento masivo paralelo (MPP) de código abierto para clústeres Apache Hadoop.
Impala permite a los usuarios emitir consultas SQL de baja latencia a los datos almacenados en Hadoop Distributed File System y Apache Hbase sin necesidad de movimiento o transformación de datos.
Audiencia
Este curso está dirigido a analistas y científicos de datos que realizan análisis sobre datos almacenados en Hadoop a través de herramientas de Business Intelligence o SQL.
Después de este curso, los delegados podrán
- Extraer información significativa de los clústeres de Hadoop con Impala.
- Escriba programas específicos para facilitar la Inteligencia de Negocios en Impala SQL Dialect.
- Solucionar problemas de Impala.
Python y Spark para Big Data (PySpark)
21 HorasEn esta capacitación en vivo dirigida por un instructor en Ecuador, los participantes aprenderán a usar Python y Spark juntos para analizar big data mientras trabajan en ejercicios prácticos.
Al final de esta formación, los participantes serán capaces de:
- Aprenda a usar Spark con Python para analizar Big Data.
- Trabaja en ejercicios que imiten casos del mundo real.
- Utilice diferentes herramientas y técnicas para el análisis de big data utilizando PySpark.
Apache Spark MLlib
35 HorasMLlib es la biblioteca de aprendizaje automático (ML) de Spark. Su objetivo es hacer que el aprendizaje automático práctico sea escalable y fácil. Consta de algoritmos y utilidades de aprendizaje comunes, como clasificación, regresión, agrupación, filtrado colaborativo, reducción de dimensionalidad, así como primitivas de optimización de nivel inferior y API de canalización de nivel superior.
Se divide en dos paquetes:
-
spark.mllib contiene la API original creada sobre RDD.
-
spark.ml proporciona una API de nivel superior basada en DataFrames para construir canalizaciones de ML.
Audiencia
Este curso está dirigido a ingenieros y desarrolladores que buscan utilizar una biblioteca de máquinas incorporada para Apache Spark