Безопасность генеративного ИИ — от атак до устойчивой защиты генеративных и агентных приложений (GENAI_SECURITY) – Программа курса

Программа курса

Модуль 1. Введение: рынок, циклы Gartner и атаки на GenAI

Темы:

  • Экосистема решений GenAI и место технологий на кривой Gartner Hype Cycle
  • Статистика и разбор инцидентов 2024–2025
  • Промпт-инъекции: механика, признаки, реальные примеры

Результат: вы научитесь распознавать основные векторы атак на GenAI и быстро оценивать их релевантность своему стеку, что позволит корректно приоритизировать защитные меры и ресурсы.

Модуль 2. Red Team для GenAI: тестирование моделей на топ-джейлбрейки

Темы:

  • Подходы Red Team к проверке LLM и агентных систем
  • Джейлбрейки DAN, UCAR, AIM: структура, приёмы обхода ограничений
  • Автоматизация атак: многоступенчатые атаки PAIR, Crescendo, AutoDAN-Turbo и Composition of Principles
  • Практические сценарии выявления небезопасного поведения модели

Результат: вы освоите базовое Red Team-тестирование (включая автоматизацию), чтобы вовремя находить обходы политик и снижать риск утечек, токсичного или небезопасного контента в продуктиве.

Модуль 3. Адверсарные атаки и Low-Resource методы

Темы:

  • Состязательные (adversarial) суффиксы и суффикс-атаки
  • BoN-подход (Best-of-N) для усиления джейлбрейков
  • Защита системных промптов и принципы повышения устойчивости моделей
  • Подход AutoDAN

Результат: вы сможете моделировать и сдерживать малобюджетные атаки на LLM, тем самым повышая устойчивость систем даже при ограниченных ресурсах защиты.

Модуль 4. ML в инструментах ИБ

Темы:

  • Роль ML/LLM в задачах защиты: обнаружение аномалий, анализ логов, ускорение расследований
  • Сильные и слабые стороны применения ML в SOC-процессах
  • Риски и контрольные меры при использовании ИИ на стороне защиты

Результат: вы сможете обоснованно выбирать и внедрять ML-инструменты для повышения эффективности ИБ-процессов, получая выигрыш во времени реакции и качестве детекции.

Модуль 5. Архитектура ИИ-приложений и OWASP Top 10

Темы:

  • Компонентная модель GenAI-сервисов: точки доверия и поверхности атак
  • OWASP Top 10 для LLM/GenAI: типовые уязвимости и последствия
  • Threat modeling для ИИ-систем: шаги, артефакты, проверки на этапе дизайна

Результат: вы научитесь системно выявлять уязвимости на уровне архитектуры и проектировать «встроенную» защиту, что сокращает стоимость и сроки последующего устранения рисков.

Модуль 6. Право и регуляторика

Темы:

  • Принципы доверенного ИИ (Trustworthy AI)
  • Требования AI Act: подходы к классификации рисков и последствия для разработчиков/эксплуатантов
  • ISO/IEC 42001: управление ИИ-системами на уровне процессов
  • Юридические аспекты генеративного ИИ: данные, ИС, ответственность

Результат: вы сможете выстраивать работы над GenAI-продуктами с учётом ключевых правовых требований, снижая регуляторные риски и ускоряя согласования с комплаенсом и юристами.

Модуль 7. Воркшоп «Взлом агента»

Темы:

  • Разработка кастомного джейлбрейка под конкретного агента
  • Применение защитных средств: Llama Guard, StrongReject
  • Разбор кейсов и приёмов из соревнований GreySwan

Результат: вы на практике отработаете атаки и контрмеры против агентных систем, чтобы затем воспроизвести аналогичные проверки и укрепление защиты в своих проектах.

Модуль 8. Threat Model & Business Insights

Темы:

  • Фреймворки и практики: MITRE, NIST, MAESTRO, OWASP ASI
  • Методология и инструменты непрерывного тестирования и защиты ИИ-систем
  • Рынок AI Security-инструментов: классы решений и зоны применения

Результат: вы научитесь связывать технические меры с бизнес-рисками и строить непрерывный контур тестирования/мониторинга, что даёт управляемое снижение рисков и предсказуемость для стейкхолдеров.

В программу встроены 3 практических проекта формата Red Team / Blue Team, которые последовательно закрепляют навыки атаки и защиты, отработанные в модулях.