Открыть меню
683
286
3
15 тыс.
Wiki - Факультет компьютерных наук
Переключить меню настроек
Открыть персональное меню
Вы не представились системе
Ваш IP-адрес будет виден всем, если вы внесёте какие-либо изменения.

Обучение с подкреплением (ИИ24, 7 модуль)

Материал из Wiki - Факультет компьютерных наук

О курсе

Занятия проводятся в Zoom по субботам с 13:00 МСК

Контакты

Чат курса в TG: link

Преподаватели: Сергей Лактионов, Вячеслав Бучков

Материалы курса

Ссылка на плейлист курса на YouTube: [YouTube-playlist]

Ссылка на плейлист курса в VKVideo: [VKVideo-playlist]

Ссылка на GitHub с материалами курса: [GitHub repository]

Занятие Тема Дата Дополнительные материалы
1 [YouTube] [VKVideo] [Материалы] Intro to RL, Dynamic Programming 10/01/2026
2 [YouTube] [VKVideo] [Материалы] Model-Free Tabular RL: Q-Learning, SARSA 17/01/2026
3 [YouTube] [VKVideo] [Материалы] Intro to Deep RL: DQN, RAINBOW and beyond 24/01/2026 [DQN], [DRQN], [RAINBOW], [APE-X]
4 [YouTube] [VKVideo] [Материалы] Policy-Based Methods: Policy Gradient, REINFORCE, A2C 31/01/2026 [Policy Gradient], [Actor-Critic], [REINFORCE in 2024]
5 [YouTube] [VKVideo] [Материалы] Advanced Policy-Based: TRPO, PPO and beyond 07/02/2026 [TRPO], [PPO], [TRPO vs PPO]

[37 implementation details of PPO]

[Wasserstein distance вместо KL]

[Sinkhorn distance вместо KL]

[Improvement Lower Bound в TRPO]

[TV Distance]

[Sigmoid Soft-Clipping]

[Soft-Clipping in LLM]

6 [YouTube] [VKVideo] [Материалы] Continuous Control: DDPG, SAC and beyond 14/02/2026 [DDPG], [TD3], [SAC], [TQC]

[MuJoCo]

7 [Youtube] [VKVideo] [Материалы] Offline RL 21/02/2026 [Offline RL Tutorial, [A Survey on Offline RL]

[IQL], [CQL], [ReBRAC]

[Decision Transformers], [Trajectory Transformers]

[CORL Library]

8 [Youtube] [VKVideo] [Материалы] Multi-Armed Bandits 28/02/2026 [Neural UCB] [Neural Thompson Sampling]
9 [Youtube] [VKVideo] [Материалы] Model-based RL: AlphaZero and friends 07/03/2026 [AlphaZero], [MuZero], [EfficientZero]

[World Models], [Dreamer-V1]

10 [Youtube] [VKVideo] [Материалы] RL in a context of LLMs 14/03/2026
11 [Youtube] [VKVideo] [Материалы] Practical RL 21/03/2026

Формула оценивания

Оценка = МИН(10, 10*(0.65*HW + 0.10*TA + 0.25*RC)), где

  • HW - сумма баллов за (как минимум) 5 ДЗ;
  • RC - оценка за презентацию статьи, посвященной новым алгоритмам или неожиданным применениям RL-парадигмы в индустрии;
  • TA - сумма баллов за еженедельные квизы (суммарно 10 квизов).

Для каждого домашнего задания есть мягкий дедлайн, сдача после которого в течение недели до жёсткого дедлайна оценивается со штрафом 5% от оценки за ДЗ за каждый день просрочки.

Домашние задания

  1. HW-1 "Value- and policy-iteration algorithms" (2 балла) | Мягкий дедлайн - 23/01/26 23:59, Жёсткий - 30/01/26 23:59 | [Ноутбук]
  2. HW-2 "SARSA(\lambda) and EV-SARSA(\lambda)" (3 балла) | Мягкий дедлайн - 31/01/26 23:59 04.02.2026 23:59, Жёсткий - 07/02/26 23:59 11.02.2026 23:59 | [Ноутбук]
  3. HW-3 "DQN Implementation" (6 баллов) | Мягкий дедлайн - 20/02/26 23:59, Жёсткий - 27/02/26 23:59 01.03.2026 23:59 | [Ноутбук]
  4. HW-4 "PPO Implementation" (5 баллов) | Мягкий дедлайн - 08/03/26 23:59, Жёсткий - 15/03/26 23:59 | [Ноутбук]
  5. HW-5 "SAC Implementation" (5 баллов) | Мягкий дедлайн - 15/03/26 23:59, Жёсткий - 22/03/26 23:59 | [Ноутбук]

Дедлайн по согласованию статьи - 15/03/26 23:59

Дедлайн по сдаче статьи - 21/03/26 23:59 24/03/26 23:59 25/03/26 8:59

Литература

  1. Reinforcement Learning: An Introduction by R.Sutton and A.Barto
  2. Practical RL course by YSDA
  3. David Silver's course
  4. Sergey Levine's course
  5. Reinforcement Learning Textbook (in Russian)