Data Engineering on Google Cloud Platform (DEGCP)

Программа курса

Модуль 1: Обзор Google Cloud Dataproc

  • Создание и управление кластерами.
  • Типы пользовательских машин, выбор нод.
  • Масштабируемость и удаление кластеров.
  • Лабораторная работа 1: Создание Hadoop Clusters с Google Cloud Dataproc.

Модуль 2: Запуск Dataproc Jobs

  • Running Pig и Hive jobs.
  • Сегментация хранилищ.
  • Лабораторная работа 2: Запуск Hadoop и Spark Jobs с Dataproc.
  • Лабораторная работа 3: Механизмы submit и monitor jobs.

Модуль3: Интеграция Dataproc с Google Cloud Platform

  • Кастомизация кластера.
  • BigQuery Support.
  • Лабораторная работа 4: Выбор сервисов Google Cloud Platform.

Модуль 4: Использование Google’s Machine Learning API

  • Google’s Machine Learning APIs.
  • Сценарии использования ML.
  • Вызов ML API.
  • Лабораторная работа 5: Добавление механизмов Machine Learning и Big Data Analysis.

Модуль 5: Анализ данных с помощью BigQuery

  • Что такое BigQuery.
  • Queries и Functions.
  • Лабораторная работа 6: Написание запросов в BigQuery.
  • Загрузка данных в BigQuery.
  • Выгрузка данных из BigQuery.
  • Лабораторная работа 7: Добавление и импортирование данных.
  • Запрос множественных таблиц.
  • Лабораторная работа 8: Комплексные запросы.
  • Производительность и цены.

Модуль 6: Data pipelines c Dataflow

  • Модель The Beam.
  • Data pipelines в Beam Python.
  • Data pipelines в Beam Java.
  • Лабораторная работа 9: Writing a Dataflow pipeline.
  • Масштабирование процесса обработки Big Data с использованием Beam.
  • Лабораторная работа 10: MapReduce в Dataflow.
  • Лабораторная работа 11: Side inputs.
  • Обработка потоковых данных.
  • Основные архитектуры GCP.

Модуль 7: Начало работы с Machine Learning

  • Что такое машинное обучение (ML).
  • Эффективность ML: концепции, типы.
  • ML datasets.
  • Лабораторная работа 12: Создание ML datasets.

Модуль 8: Построение моделей ML с Tensorflow

  • Начало работы с TensorFlow.
  • Лабораторная работа :13 Использование tf.learn.
  • TensorFlow графики.
  • Лабораторная работа 14: Использование low-level TensorFlow + early stopping.
  • Мониторинг обучения ML.
  • Лабораторная работа 15: Графики и статистика обучения TensorFlow.

Модуль 9: Масштабирование моделей ML с CloudML

  • Почему Cloud ML?
  • Механизмы модели TensorFlow.
  • End-to-end обучение.
  • Лабораторная работа 16: Запуск локальной модели ML м в облаке.

Модуль 10: Feature Engineering

  • Преобразование входных данных
  • Synthetic features
  • Preprocessing с Cloud ML.
  • Лабораторная работа 17: Feature engineering.

Модуль 11: Перенос переменных

  • В чем разница между Cloud Pub/Sub?
  • Как это работает: Topics и Subscriptions.
  • Лабораторная работа 18: Симулятор.

Модуль 12: Внедрение потоковых pipelines

  • Как сложности могут возникнуть при обработке потоковых данных.
  • Лабораторная работа 19: Рipeline для трафика реального времени.

Модуль 13: Потоковая аналитика и графики

  • Потоковая аналитика.
  • Запросы потоковых данных с BigQuery.
  • Что такое Google Data Studio?
  • Лабораторная работа 20: Построение dashboard в режиме реального времени для визуализации процессов обработки данных.

Модуль 14: Высокая пропускная способность и низкие задержки с Bigtable

  • Что такое Cloud Spanner?
  • Схема Bigtable.
  • Переносв Bigtable.
  • Лабораторная работа 21: Bigtable.