Big Data on AWS (BDAWS)

Программа курса

Введение в Big Data

  • Определение терминов
  • Пайплайн Big Data и основные инструменты работы с ним

Поглощение и передача Big Data

  • Основные варианты поглощения Big Data в облако AWS
  • Решения передачи Big Data в облаке AWS

Потоки Big Data и сервис Amazon Kinesis

  • Необходимость поточной обработки и аналитики
  • Возможности поточной обработки и аналитики
  • Лабораторная работа 1: Использование Amazon Kinesis в поточной обработке и аналитике логов серверва Apache

Системы хранения для Big Data

  • Сервисы хранения данных в AWS
  • Факторы, влияющие на выбор хранилища для данных

Обработка и аналитика Big Data

  • Amazon Athena
  • Лабораторная работа 2: Использование Amazon Athena для запроса логов из Amazon S3

Apache Hadoop и Amazon EMR

  • Введение в MapReduce и Apache Hadoop
  • Лучшие практики поглощения данных
  • Amazon EMR
  • Лабораторная работа 3: Хранение и чтение данных в Amazon DynamoDB

Использование Amazon EMR

  • Разработка и запуск приложения
  • Запуск кластера
  • Обработка выходных данных из завершённых работ

Фреймворки обработки Hadoop

  • Работа фреймворков
  • Фреймворки Hadoop
  • Другие фреймворки, доступные для Amazon EMR
  • Лабораторная работа 4: Обработка логов сервера с помощью Hive в Amazon EMR

Веб-интерфейсы в Amazon EMR

  • Hue в Amazon EMR
  • Мониторинг кластера
  • Лабораторная работа 5: Запуск Pig-скриптов в Hue на Amazon EMR

Apache Spark на Amazon EMR

  • Аналитика в оперативной памяти
  • Apache Spark
  • Модель программирования Spark
  • Библиотеки Spark
  • Лабораторная работа 6: Обработка данных NY Taxi с помощью Spark на Amazon EMR

Использование AWS Glue для автоматизации нагрузок ETL

  • AWS Glue
  • Оркестрация потоков
  • Частые случаи использования

Amazon Redshift и Big Data

  • Склады данных и традиционные базы данных
  • Междоменная аналитика
  • Amazon Redshift

Защита инфраструктур в AWS

  • Обзор безопасности AWS
  • Безопасность в Amazon EMR
  • AWS IAM
  • Защита данных
  • Безопасность в Amazon Kinesis
  • Безопасность в Amazon DynamoDB
  • Безопасность в Amazon Redshift

Управление стоимостью Big Data

  • Определение общей стоимости в Amazon EMR
  • Модели ценообразования в Amazon EC2
  • Хранилища и стоимость передачи
  • Модели ценообразования в Amazon Kinesis
  • Оптимизация стоимости в Amazon DynamoDB
  • Оптимизация стоимости в AWS

Визуализация и оркестрация Big Data

  • Визуализация Big Data
  • Amazon QuickSight
  • Другие возможности оптимизации
  • Оркестрация потоков и нагрузок Big Data
  • Лабораторная работа 7: Визуализация данных TIBCO Spotfire

Паттерны проектирования Big Data

  • Распространенные архитектуры

Итоговый контроль знаний