<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
	<id>https://www.wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%9C%D0%9E%D0%92%D0%A1_%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC_%28RL%29_2022-23_7%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8C</id>
	<title>МОВС Обучение с подкреплением (RL) 2022-23 7модуль - История изменений</title>
	<link rel="self" type="application/atom+xml" href="https://www.wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%9C%D0%9E%D0%92%D0%A1_%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC_%28RL%29_2022-23_7%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8C"/>
	<link rel="alternate" type="text/html" href="https://www.wikicshse.ru/index.php?title=%D0%9C%D0%9E%D0%92%D0%A1_%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC_(RL)_2022-23_7%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8C&amp;action=history"/>
	<updated>2026-06-08T08:41:26Z</updated>
	<subtitle>История изменений этой страницы в вики</subtitle>
	<generator>MediaWiki 1.45.3</generator>
	<entry>
		<id>https://www.wikicshse.ru/index.php?title=%D0%9C%D0%9E%D0%92%D0%A1_%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC_(RL)_2022-23_7%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8C&amp;diff=1241&amp;oldid=prev</id>
		<title>imported&gt;SavelyProkhorov: finalization</title>
		<link rel="alternate" type="text/html" href="https://www.wikicshse.ru/index.php?title=%D0%9C%D0%9E%D0%92%D0%A1_%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC_(RL)_2022-23_7%D0%BC%D0%BE%D0%B4%D1%83%D0%BB%D1%8C&amp;diff=1241&amp;oldid=prev"/>
		<updated>2023-03-11T11:10:24Z</updated>

		<summary type="html">&lt;p&gt;finalization&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Новая страница&lt;/b&gt;&lt;/p&gt;&lt;div&gt;==О курсе==&lt;br /&gt;
&lt;br /&gt;
Занятия проводятся в [https://us06web.zoom.us/j/86000610748?pwd=VEJyTDJLcVpYMTVLRXNaSjBOQWdUUT09 Zoom] &amp;#039;&amp;#039;&amp;#039;по четвергам в 19:00&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
==Контакты==&lt;br /&gt;
&lt;br /&gt;
Канал курса в TG: [[https://t.me/+lp2ZkfDrsq4wY2Vi channel link]]&lt;br /&gt;
&lt;br /&gt;
Чат курса в TG: [[https://t.me/+kbAv70a-l_YyM2Qy chat link]]&lt;br /&gt;
&lt;br /&gt;
Преподаватель: Лактионов Сергей Дмитриевич&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! Ассистент !! Контакты &lt;br /&gt;
|-&lt;br /&gt;
| style=&amp;quot;background:#eaecf0;&amp;quot; | Айжана Назирбекова || [https://t.me/astra_n @astra_n]&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
==Материалы курса==&lt;br /&gt;
Ссылка на плейлист курса на YouTube: [[https://www.youtube.com/playlist?list=PLmA-1xX7IuzBwUh5VoEKl1FU3dLDPHf4F YouTube-playlist]]&lt;br /&gt;
&lt;br /&gt;
Записи лекций и семинаров предыдущего потока: [[https://disk.yandex.ru/d/xZbe-qARVmWkuw Яндекс.Диск]]&lt;br /&gt;
&lt;br /&gt;
Ссылка на GitHub с материалами курса: [[https://github.com/laktionov/RL-course GitHub repository]]&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
 ! Занятие !! Тема !! Дата &lt;br /&gt;
|-&lt;br /&gt;
| style=&amp;quot;background:#eaecf0;&amp;quot; | &amp;#039;&amp;#039;&amp;#039;1&amp;#039;&amp;#039;&amp;#039; [[https://www.youtube.com/watch?v=Rj0sI_EUTfs&amp;amp;list=PLmA-1xX7IuzBwUh5VoEKl1FU3dLDPHf4F Запись]] || [[https://github.com/laktionov/RL-course/tree/main/week1_intro_cross_entropy Ноутбук]] Intro, Cross-entropy Method: Постановка задачи RL, алгоритм CEM || 12.01.23 &lt;br /&gt;
|-&lt;br /&gt;
| style=&amp;quot;background:#eaecf0;&amp;quot; | &amp;#039;&amp;#039;&amp;#039;2&amp;#039;&amp;#039;&amp;#039; [[https://www.youtube.com/watch?v=Va0s2v3QrKY&amp;amp;list=PLmA-1xX7IuzBwUh5VoEKl1FU3dLDPHf4F Запись]] || [[https://github.com/laktionov/RL-course/tree/main/week2_dynamic_programming Ноутбук]] Bellman Equations &amp;amp; Dynamic Programming: основные понятия (агент, среда, политика, состояние, действие, награда). MDP. V- и Q-функции. Уравнение Беллмана и ДП, Policy и Value Iteration алгоритмы || 19.01.23 &lt;br /&gt;
|-&lt;br /&gt;
| style=&amp;quot;background:#eaecf0;&amp;quot; | &amp;#039;&amp;#039;&amp;#039;3&amp;#039;&amp;#039;&amp;#039; [[https://www.youtube.com/watch?v=uPEaVeiXSlc&amp;amp;list=PLmA-1xX7IuzBwUh5VoEKl1FU3dLDPHf4F Запись]] || [[https://github.com/laktionov/RL-course/tree/main/week3_model_free Ноутбук]] Model-free RL: Temporal Difference Learning, алгоритм Q-learning, семейство алгоритмов SARSA, on- и off-policy алгоритмы || 26.01.23 &lt;br /&gt;
|-&lt;br /&gt;
| style=&amp;quot;background:#eaecf0;&amp;quot; | &amp;#039;&amp;#039;&amp;#039;4&amp;#039;&amp;#039;&amp;#039; [[https://www.youtube.com/watch?v=RIFEBr3ZZKU&amp;amp;list=PLmA-1xX7IuzBwUh5VoEKl1FU3dLDPHf4F Запись]] || [[https://github.com/laktionov/RL-course/tree/main/week4_dqn Ноутбук]] DQN и его модификации: аппроксимация Q-функции с помощью нейросети. Эпсилон-жадная политика. Применение алгоритма DQN для Atari сред. Модификации алгоритма DQN || 02.02.23 &lt;br /&gt;
|-&lt;br /&gt;
| style=&amp;quot;background:#eaecf0;&amp;quot; | &amp;#039;&amp;#039;&amp;#039;5&amp;#039;&amp;#039;&amp;#039; [[https://www.youtube.com/watch?v=a9I13tQeUC8&amp;amp;list=PLmA-1xX7IuzBwUh5VoEKl1FU3dLDPHf4F Запись]] || [[https://github.com/laktionov/RL-course/tree/main/week5_policy_gradient Ноутбук]] Policy Gradients Methods, Actor-Critic || 09.02.23 &lt;br /&gt;
|-&lt;br /&gt;
| style=&amp;quot;background:#eaecf0;&amp;quot; | &amp;#039;&amp;#039;&amp;#039;6&amp;#039;&amp;#039;&amp;#039;, не состоялось|| [[https://github.com/laktionov/RL-course/tree/main/week6_advanced_policy_based Ноутбук]] Advanced Policy Gradients Methods: методы 2-го порядка для стохастической оптимизации. Аппроксимация KL-дивергенции. Метод сопряжённых градиентов. Алгоритмы TRPO и PPO || 16.02.23 &lt;br /&gt;
|-&lt;br /&gt;
| style=&amp;quot;background:#eaecf0;&amp;quot; | &amp;#039;&amp;#039;&amp;#039;7&amp;#039;&amp;#039;&amp;#039; [[https://www.youtube.com/watch?v=icCIBogpBqE&amp;amp;list=PLmA-1xX7IuzBwUh5VoEKl1FU3dLDPHf4F Запись]] || [[https://github.com/laktionov/RL-course/blob/main/week7_continuous_control/Lecture7.pdf Слайды]] Continuous Control: непрерывное пространство действий, алгоритмы DDPG и SACC || 02.03.23 &lt;br /&gt;
|-&lt;br /&gt;
| style=&amp;quot;background:#eaecf0;&amp;quot; | &amp;#039;&amp;#039;&amp;#039;8&amp;#039;&amp;#039;&amp;#039; [[https://www.youtube.com/watch?v=jy65ZjYYZ-c&amp;amp;list=PLmA-1xX7IuzBwUh5VoEKl1FU3dLDPHf4F Запись]] || [[https://github.com/laktionov/RL-course/tree/main/week8_bandits Ноутбук]] Multi-armed Bandits: введение понятия многорукого бандита. Regret Minimisation, UCB и Thompson Sampling алгоритмы || 09.03.23 &lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
==Формула оценивания==&lt;br /&gt;
&lt;br /&gt;
Оценка = МИН(10, 10*(0.7*HW/12 + 0.3*RC/5)), где HW - сумма баллов за 4 ДЗ (2 простых и 2 сложных с 8.75 бонусными баллами), а RC - оценка за презентацию статьи, посвященной новым алгоритмам или неожиданным применениям RL-парадигмы в индустрии&lt;br /&gt;
&lt;br /&gt;
== Домашние задания ==&lt;br /&gt;
# HW-1 &amp;quot;Deep Cross-Entropy Method&amp;quot; (&amp;#039;&amp;#039;2 балла + 0.5&amp;#039;&amp;#039;) | &amp;#039;&amp;#039;&amp;#039;Мягкий дедлайн - 19.01.23 23:59&amp;#039;&amp;#039;&amp;#039;, Жёсткий - 26.01.23 | [[https://github.com/laktionov/RL-course/blob/main/hw1/deep-crossentropy-method.ipynb Ноутбук]]&lt;br /&gt;
# HW-2 &amp;quot;Markov Decision Process&amp;quot; (&amp;#039;&amp;#039;2 балла + 0.5&amp;#039;&amp;#039;) | &amp;#039;&amp;#039;&amp;#039;Мягкий дедлайн - 26.01.23 23:59&amp;#039;&amp;#039;&amp;#039;, Жёсткий - 02.02.23 23:59 | [[https://github.com/laktionov/RL-course/blob/main/hw2/hw-2-value-policy-iteration.ipynb Ноутбук]]&lt;br /&gt;
# HW-3 &amp;quot;DQN CNN Implementation&amp;quot; (&amp;#039;&amp;#039;4 балла + 6.75&amp;#039;&amp;#039;) | &amp;#039;&amp;#039;&amp;#039;Мягкий дедлайн - 23.02.23 23:59&amp;#039;&amp;#039;&amp;#039;, Жёсткий - 02.03.23 23:59| [[https://github.com/laktionov/RL-course/blob/main/hw3/hw-3-dqn-cnn.ipynb Ноутбук]]&lt;br /&gt;
# HW-4 &amp;quot;Advantage-Actor Critic&amp;quot; (&amp;#039;&amp;#039;4 балла + 0.5&amp;#039;&amp;#039;) | &amp;#039;&amp;#039;&amp;#039;Мягкий дедлайн&amp;#039;&amp;#039;&amp;#039; - &amp;lt;strike&amp;gt;04.03.23&amp;lt;/strike&amp;gt; &amp;#039;&amp;#039;&amp;#039;11.03.23 23:59&amp;#039;&amp;#039;&amp;#039;, Жёсткий - &amp;lt;strike&amp;gt;11.03.23&amp;lt;/strike&amp;gt; &amp;#039;&amp;#039;18.03.23&amp;#039;&amp;#039; 23:59 | [[https://github.com/laktionov/RL-course/blob/main/hw4/hw_4_advantage_actor_critic.ipynb Ноутбук]]&lt;br /&gt;
&lt;br /&gt;
* Разбор статьи (&amp;#039;&amp;#039;40% общей оценки&amp;#039;&amp;#039;) | [https://docs.google.com/spreadsheets/d/1hVPI11_UhKeSwFLZHq4enNpYoDAbd9KnaI83UuwaSZE/edit#gid=0 Список примеров] | [[https://docs.google.com/spreadsheets/d/1hVPI11_UhKeSwFLZHq4enNpYoDAbd9KnaI83UuwaSZE/edit?usp=sharing Таблица для записи]] | &amp;#039;&amp;#039;&amp;#039;Дедлайн&amp;#039;&amp;#039;&amp;#039; - &amp;lt;strike&amp;gt;08.03.23&amp;lt;/strike&amp;gt; &amp;#039;&amp;#039;&amp;#039;15.03.23 23:59 МСК&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
== Литература ==&lt;br /&gt;
# Саттон, Р. С. - Обучение с подкреплением&lt;br /&gt;
# https://eds.p.ebscohost.com/eds/detail/detail?vid=9&amp;amp;sid=43ffa483-7342-447f-8a09-ab883238b6e9%40redis&amp;amp;bdata=JnNpdGU9ZWRzLWxpdmU%3d#AN=1094&amp;amp;db=nlebk&lt;/div&gt;</summary>
		<author><name>imported&gt;SavelyProkhorov</name></author>
	</entry>
</feed>