> > > DIGCP Программа курса

From Data to Insights with Google Cloud Platform (DIGCP)

Программа курса

Модуль 1: Введение в Google Cloud Platform

  • Сравнение обработки Big Data на локальных мощностях и в облаке
  • Примеры использования облачных решений для аналитики больших данных
  • Навигация по проекту Google Cloud Platform
  • Лабораторная работа 1: Начало работы с Google Cloud Platform

Модуль 2: Обзор механизмов для работы с Big Data

  • Введением в механизмы Google Cloud Platform Data Tools
  • Демонстрационное задание: Анализ 10 миллионов записей с Google BigQuery
  • Обзор и анализ возможностей Google BigQuery
  • Сравнение механизмов GCP для аналитиков, специалистов по данным, инженеров по данным.
  • Лабораторная работа: Изучение Datasets с Google BigQuery

Модуль 3: Ценообразование Google BigQuery

  • Анализ BigQuery Job
  • Вычисление стоимости BigQuery: Storage, Querying, Streaming Costs
  • Оптимизация запросов с точки зрения стоимости
  • Лабораторная работа: Вычисление стоимости Google BigQuery

Модуль 5: Cleaning и Transforming

  • Изучение 5 принципов обеспечения целостности данных
  • Dataset Shape и Skew
  • Clean и Transform данных с использованием SQL
  • Введение в Cloud Dataprep
  • Лабораторная работа: Работа в Cloud Dataprep

Модуль 6: Хранение и экспорт данных

  • Сравнение Permanent vs Temporary таблиц
  • Сохранение и экспорт результатов запросов
  • Кеш запросов
  • Лабораторная работа: Creating new Permanent Tables

Модуль 7: Добавление новых Datasets в Google BigQuery

  • Запросы из внешних источников данных
  • Добавление новых данных в Permanent Tables
  • Потоковые вставки
  • Лабораторная работа: Работа с Datasets

Модуль 8: Визуализация данных

  • Обзор принципов визуализации данных
  • Exploratory vs Explanatory подходы к анализу
  • Демонстрационное задание: Google Data Studio UI
  • Подключение Google Data Studio к Google BigQuery
  • Лабораторная работа: Dataset в Google Data Studio

Модуль 9: Добавление и объединение Datasets

  • Объединение Historical Data Tables с UNION
  • Table Wildcards
  • Обзор и сравнение схем: Linking Data против Multiple Tables
  • JOIN примеры
  • Лабораторная работа: Использование Multiple Tables

Модуль 10: Расширенные функции

  • Введение в функции Analytical Window
  • Сохранение данных с One-Way Field Encryption
  • Обсуждение эффективных Sub-query и дизайна CTE
  • Сравнение SQL и Javascript UDF
  • Лабораторная работа: Расширенные функции SQL

Модуль 11: Схема дизайна

  • Сравнение архитектур Google BigQuery vs Traditional RDBMS
  • Normalization vs Denormalization
  • Обзор схем: The Good, The Bad, и The Ugly
  • Google BigQuery
  • Лабораторная работа: Querying Nested, Repeated Data

Модуль 12: Больше визуализации с Google Data Studio

  • Расчет полей
  • Избежание ошибок производительности при использовании кеша
  • Общие Dashboards

Модуль 13: Оптимизация производительности

  • Избежание ошибок в работе Google BigQuery
  • Предотвращение Hotspots в данных
  • Диагностика проблем производительности с использованием Query Explanation map
  • Лабораторная работа: Оптимизация и устранение неисправностей в производительности системы

Модуль 14: Расширенные сведения

  • Введение в Cloud Datalab
  • Cloud Datalab Notebooks и Cells
  • Преимущества Cloud Datalab

Модуль 15: Доступ к данным

  • Сравнение IAM и ролей BigQuery Dataset
  • Как избежать проблем и ошибок в организации доступа
  • Обзор Members, Roles, Organizations, Account Administration, и Service Accounts