Procesamiento por lotes de datos con Spark y Hadoop en GCP

Introducción a Building Bach Data Pipelines
3
Quality consideration
4
Cómo realizar operaciones de transformación en BigQuery
5
Demo: ELT para mejorar la calidad de los datos en BigQuery
6
Shortcomings
7
ETL para resolver problemas de calidad de datos
Ejecutando Spark en Dataproc
1
The hadoop ecosystem
2
Running Hadoop on Cloud Dataproc
3
GSC instead of HDFS 2
4
Optimizing Dataproc 1
Ejecutando Spark en Dataproc
1
Cloud Dataflow 1
2
Why customers value Dataflow 1
3
Dataflow Pipelines 1
4
Dataflow Pipelines 2
5
Dataflow Pipelines 3
6
A Simple Dataflow Pipeline 1 (corregir video )
7
A Simple Dataflow Pipeline 2
8
MapReduce in Dataflow (Python/Java)
9
Side Inpus
10
Dataflow Templates
11
Dataflow SQL
Leveraging GCP en Pipelines
1
Building Batch Data Pipelines visualmente con Cloud Data Fusion
2
Componentes
3
UI Overview
4
Building a Pipeline
5
Ecploring Data using Wrangler
6
Organizar el trabajo entre el servicio de GCP Cloud Composer – Apache Airflow Evironment
7
Apache Airflow Evironment
8
DAGs and operators 1
9
DAGs and operators 2
10
Workflow Scheduling 1
11
Workflow Scheduling 2
12
Monitoring and Logging