Curso de Programación con Big Data en R
Big Data es un término que se refiere a las soluciones destinadas a almacenar y procesar grandes conjuntos de datos. Desarrolladas por Go ogle inicialmente, estas soluciones de Big Data han evolucionado e inspirado a otros proyectos similares, muchos de los cuales están disponibles como código abierto. R es un lenguaje de programación popular en la industria financiera.
Programa del Curso
Introducción a Programming Big Data con R (bpdR)
- Configuración del entorno para usar pbdR
- Alcance y herramientas disponibles en pbdR
- Paquetes comúnmente usados con Big Data junto con pbdR
Interfaz de paso de mensajes (MPI)
- Uso de pbdR MPI 5
- Procesamiento paralelo
- Comunicación punto a punto
- Enviar matrices
- Matrices sumadoras
- Comunicación colectiva
- Suma de matrices con Reducir
- Dispersar / Reunir
- Otras comunicaciones de MPI
Matrices distribuidas
- Creación de una matriz diagonal distribuida
- SVD de una matriz distribuida
- Creación de una matriz distribuida en paralelo
Statistics Aplicaciones
- Integración de Monte Carlo
- Lectura de conjuntos de datos
- Lectura de todos los procesos
- Difusión desde un proceso
- Lectura de datos particionados
- Regresión distribuida
- Distribuido Bootstrap
Los cursos de formación abiertos requieren más de 5 participantes.
Curso de Programación con Big Data en R - Booking
Curso de Programación con Big Data en R - Enquiry
Programación con Big Data en R - Consultas
Consultas
Testimonios (2)
The subject matter and the pace were perfect.
Tim - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada
Curso - Programming with Big Data in R
Traducción Automática
Michael the trainer is very knowledgeable and skillful about the subject of Big Data and R. He is very flexible and quickly customize the training meeting clients' need. He is also very capable to solve technical and subject matter problems on the go. Fantastic and professional training!.
Xiaoyuan Geng - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada
Curso - Programming with Big Data in R
Traducción Automática
Próximos cursos
Cursos Relacionados
Unified Batch and Stream Processing with Apache Beam
14 HorasApache Beam es un modelo de programación unificado de código abierto para definir y ejecutar tuberías de procesamiento de datos paralelas. Su poder radica en su capacidad para ejecutar canalizaciones por lotes y de transmisión, y la ejecución la lleva a cabo uno de los back-ends de procesamiento distribuido compatibles con Beam: Apache Apex, Apache Flink, Apache Spark y Google Cloud Dataflow. Apache Beam es útil para tareas ETL (Extracción, Transformación y Carga), como mover datos entre diferentes medios de almacenamiento y fuentes de datos, transformar datos a un formato más deseable y cargar datos en un nuevo sistema.
En esta capacitación en vivo dirigida por un instructor (presencial o remota), los participantes aprenderán a implementar los SDK Apache Beam en una aplicación Java o Python que define una canalización de procesamiento de datos para descomponer un conjunto de datos grandes en fragmentos más pequeños para un procesamiento paralelo e independiente.
Al final de esta formación, los participantes serán capaces de:
- Instalar y configurar Apache Beam.
- Utilice un único modelo de programación para llevar a cabo el procesamiento por lotes y por secuencias desde su aplicación Java o Python.
- Ejecute canalizaciones en múltiples entornos.
Formato del curso
- En parte conferencia, en parte discusión, ejercicios y práctica práctica pesada
Nota
- Este curso estará disponible Scala en el futuro. Póngase en contacto con nosotros para organizarlo.
Bóveda de Datos: Creación de un Almacén de Datos Escalable
28 HorasEn esta capacitación en vivo dirigida por un instructor en Ecuador, los participantes aprenderán cómo construir un Data Vault.
Al final de esta formación, los participantes serán capaces de:
- Comprender los conceptos de arquitectura y diseño detrás de Data Vault 2.0 y su interacción con Big Data, NoSQL e IA.
- Utilice técnicas de almacenamiento de datos para permitir la auditoría, el seguimiento y la inspección de datos históricos en un almacén de datos.
- Desarrolle un proceso ETL (Extracción, Transformación, Carga) coherente y repetible.
- Construya e implemente almacenes altamente escalables y repetibles.
Flink para Flujo Escalable y Procesamiento de Datos por Lotes
28 HorasEsta capacitación en vivo dirigida por un instructor en Ecuador (en línea o presencial) presenta los principios y enfoques detrás del procesamiento de datos de flujo distribuido y por lotes, y guía a los participantes a través de la creación de una aplicación de transmisión de datos en tiempo real en Apache Flink.
Al final de esta formación, los participantes serán capaces de:
- Configure un entorno para desarrollar aplicaciones de análisis de datos.
- Comprender cómo funciona la biblioteca de procesamiento de gráficos (Gelly) de Apache Flink.
- Empaquete, ejecute y supervise aplicaciones de transmisión de datos tolerantes a errores y basadas en Flink.
- Administre diversas cargas de trabajo.
- Realizar analíticas avanzadas.
- Configure un clúster de Flink de varios nodos.
- Mida y optimice el rendimiento.
- Integre Flink con diferentes Big Data sistemas.
- Compare las capacidades de Flink con las de otros marcos de procesamiento de big data.
Confluent KSQL
7 HorasEsta capacitación en vivo dirigida por un instructor en Ecuador (en línea o presencial) está dirigida a desarrolladores que desean implementar Apache Kafka el procesamiento de flujos sin escribir código.
Al final de esta formación, los participantes serán capaces de:
- Instale y configure Confluent KSQL.
- Configure una canalización de procesamiento de secuencias utilizando solo los comandos SQL (sin codificación Java o Python).
- Lleve a cabo el filtrado de datos, las transformaciones, las agregaciones, las uniones, las ventanas y la sessionización íntegramente en SQL.
- Diseñe e implemente consultas interactivas y continuas para la transmisión de ETL y análisis en tiempo real.
Apache NiFi para administradores
21 HorasEn esta capacitación en vivo dirigida por un instructor en Ecuador (presencial o remoto), los participantes aprenderán cómo implementar y administrar Apache NiFi en un entorno de laboratorio en vivo.
Al final de esta formación, los participantes serán capaces de:
- Instala y configura Apachi NiFi.
- Obtenga, transforme y administre datos de fuentes de datos dispares y distribuidas, incluidas bases de datos y lagos de big data.
- Automatice los flujos de datos.
- Habilite el análisis de transmisión.
- Aplique varios enfoques para la ingesta de datos.
- Transforme Big Data y conviértase en información empresarial.
Apache NiFi para desarrolladores
7 HorasEn esta capacitación en vivo dirigida por un instructor en Ecuador, los participantes aprenderán los fundamentos de la programación basada en flujo a medida que desarrollan una serie de extensiones, componentes y procesadores de demostración utilizando Apache NiFi.
Al final de esta formación, los participantes serán capaces de:
- Comprenda la arquitectura de NiFi y los conceptos de flujo de datos.
- Desarrolle extensiones utilizando NiFi y API de terceros.
- Desarrollar a medida su propio procesador Apache Nifi.
- Ingiera y procese datos en tiempo real de formatos de archivo y fuentes de datos dispares y poco comunes.
Python y Spark para Big Data (PySpark)
21 HorasEn esta capacitación en vivo dirigida por un instructor en Ecuador, los participantes aprenderán a usar Python y Spark juntos para analizar big data mientras trabajan en ejercicios prácticos.
Al final de esta formación, los participantes serán capaces de:
- Aprenda a usar Spark con Python para analizar Big Data.
- Trabaja en ejercicios que imiten casos del mundo real.
- Utilice diferentes herramientas y técnicas para el análisis de big data utilizando PySpark.
Spark Streaming with Python and Kafka
7 HorasEsta capacitación en vivo dirigida por un instructor en Ecuador (en línea o en el sitio) está dirigida a ingenieros de datos, científicos de datos y programadores que deseen utilizar Spark Streaming funciones en el procesamiento y análisis de datos en tiempo real.
Al final de esta capacitación, los participantes podrán usar Spark Streaming para procesar flujos de datos en vivo para su uso en bases de datos, sistemas de archivos y paneles de control en vivo.
Introducción a la visualización de datos con Tidyverse y R
7 HorasEl Tidyverse es una colección de paquetes R versátiles para limpiar, procesar, modelar y visualizar datos. Algunos de los paquetes incluidos son: ggplot2, dplyr, tidyr, readr, purrr y tibble.
En esta capacitación en vivo dirigida por un instructor, los participantes aprenderán cómo manipular y visualizar datos utilizando las herramientas incluidas en Tidyverse.
Al final de esta capacitación, los participantes podrán:
- Realice análisis de datos y cree visualizaciones atractivas
- Sacar conclusiones útiles de diversos conjuntos de datos de datos de muestra
- Filtrar, clasificar y resumir datos para responder preguntas exploratorias
- Convierta los datos procesados en gráficos de líneas informativas, gráficos de barras, histogramas
- Importe y filtre datos de diversas fuentes de datos, incluidos los archivos Excel, CSV y SPSS
Audiencia
- Principiantes al lenguaje R
- Principiantes para el análisis de datos y la visualización de datos
Formato del curso
- Conferencia de parte, discusión en parte, ejercicios y práctica práctica