<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
	<id>https://www.wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%9C%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%B8_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B_%D0%BE%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B8_%D0%B1%D0%BE%D0%BB%D1%8C%D1%88%D0%B8%D1%85_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%28%D0%BE%D1%81%D0%B5%D0%BD%D1%8C_2018%29</id>
	<title>Методы и системы обработки больших данных (осень 2018) - История изменений</title>
	<link rel="self" type="application/atom+xml" href="https://www.wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%9C%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%B8_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B_%D0%BE%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B8_%D0%B1%D0%BE%D0%BB%D1%8C%D1%88%D0%B8%D1%85_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%28%D0%BE%D1%81%D0%B5%D0%BD%D1%8C_2018%29"/>
	<link rel="alternate" type="text/html" href="https://www.wikicshse.ru/index.php?title=%D0%9C%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%B8_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B_%D0%BE%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B8_%D0%B1%D0%BE%D0%BB%D1%8C%D1%88%D0%B8%D1%85_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_(%D0%BE%D1%81%D0%B5%D0%BD%D1%8C_2018)&amp;action=history"/>
	<updated>2026-06-06T12:38:52Z</updated>
	<subtitle>История изменений этой страницы в вики</subtitle>
	<generator>MediaWiki 1.45.3</generator>
	<entry>
		<id>https://www.wikicshse.ru/index.php?title=%D0%9C%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%B8_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B_%D0%BE%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B8_%D0%B1%D0%BE%D0%BB%D1%8C%D1%88%D0%B8%D1%85_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_(%D0%BE%D1%81%D0%B5%D0%BD%D1%8C_2018)&amp;diff=1467&amp;oldid=prev</id>
		<title>imported&gt;Akhtyamovpavel: /* Программа занятий */</title>
		<link rel="alternate" type="text/html" href="https://www.wikicshse.ru/index.php?title=%D0%9C%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%B8_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B_%D0%BE%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B8_%D0%B1%D0%BE%D0%BB%D1%8C%D1%88%D0%B8%D1%85_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_(%D0%BE%D1%81%D0%B5%D0%BD%D1%8C_2018)&amp;diff=1467&amp;oldid=prev"/>
		<updated>2018-10-11T07:28:17Z</updated>

		<summary type="html">&lt;p&gt;&lt;span class=&quot;autocomment&quot;&gt;Программа занятий&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Новая страница&lt;/b&gt;&lt;/p&gt;&lt;div&gt;&amp;#039;&amp;#039;&amp;#039;Лектор&amp;#039;&amp;#039;&amp;#039;: Алексей Драль, Александр Штохов&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Семинаристы&amp;#039;&amp;#039;&amp;#039;: Павел Ахтямов, Артем Козлов, Александр Штофов&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Контакты&amp;#039;&amp;#039;&amp;#039;: по всем организационным вопросам просьба писать на почту &amp;#039;&amp;#039;&amp;#039;big_data_hse_fall_2018@bigdatateam.org&amp;#039;&amp;#039;&amp;#039;. &lt;br /&gt;
&lt;br /&gt;
У курса есть чат в Telegram. Объявления по курсу вывешиваются в чате!&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==Отчетность по курсу и критерии оценивания==&lt;br /&gt;
&lt;br /&gt;
В курсе предусмотрены следующие отчетные мероприятия:&lt;br /&gt;
* тест на проверку знаний по материалам лекции и семинара (&amp;#039;&amp;#039;&amp;#039;5 баллов&amp;#039;&amp;#039;&amp;#039; за каждый тест) (13 недель)&lt;br /&gt;
* практическое домашнее задание (&amp;#039;&amp;#039;&amp;#039;50 баллов x (количество недель на задание)&amp;#039;&amp;#039;&amp;#039; за каждое домашнее задание) (13 недель)&lt;br /&gt;
&lt;br /&gt;
Итоговая оценка складывается следующим образом:&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Score = (HW_Score  + Test_Score) / 50&amp;#039;&amp;#039;&amp;#039;, где&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;HW_Score&amp;#039;&amp;#039;&amp;#039; - суммарное количество баллов за домашние задания;&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Test_Score&amp;#039;&amp;#039;&amp;#039; - суммарное количество баллов за тесты.&lt;br /&gt;
&lt;br /&gt;
Таблица с оценками доступна по ссылке: https://rebrand.ly/big_data_hse_fall_2018_grades&lt;br /&gt;
&lt;br /&gt;
==Программа занятий==&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
! &amp;#039;&amp;#039;&amp;#039;Неделя&amp;#039;&amp;#039;&amp;#039; !! &amp;#039;&amp;#039;&amp;#039;Тип&amp;#039;&amp;#039;&amp;#039; !! &amp;#039;&amp;#039;&amp;#039;Дата&amp;#039;&amp;#039;&amp;#039; !! &amp;#039;&amp;#039;&amp;#039;Название&amp;#039;&amp;#039;&amp;#039; !! &amp;#039;&amp;#039;&amp;#039;Материалы&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
|-&lt;br /&gt;
| 1 || 06.09 || Лекция || Понятие &amp;quot;большие данные&amp;quot;. Постановка задачи обработки и хранения больших данных. Примеры применения больших данных в IT индустрии. Основные проблемы в работе распределенных систем. Виды отказов узлов, связей между узлами. Устройство GFS, HDFS. Процесс восстановления HDFS. || [https://rebrand.ly/big_data_hse_fall_2018_lecture_01 презентация]&lt;br /&gt;
|-&lt;br /&gt;
| 1 || 06.09 || Семинар || Устройство HDFS кластера. HDFS CLI (интерфейс командной строки HDFS). Пользовательский интерфейс NameNode. Решение задач на вычисление объемов вычислительных ресурсов кластера. || &lt;br /&gt;
|-&lt;br /&gt;
| 2 || 20.09 || Лекция ||  MapReduce. Операции Map, Reduce. Distributed Shell как пример MapReduce задачи. Формальная модель парадигмы MapReduce. Задача подсчета слов в датасете (Word Count) Обеспечение отказоустойчивости в MapReduce. Сравнение MapReduce v1 и YARN. История развития MapReduce. MapReduce Streaming на примере Python.  Устройство Distributed Cache. Переменные окружения в MapReduce. Использование счетчиков для подсчета статистик. Отслеживание прогресса выполнения задач через JobTracker, истории выполнения задач через HistoryServer. Процесс тестирования MapReduce задач. || [https://rebrand.ly/big_data_hse_fall_2018_lecture_2 презентация]&lt;br /&gt;
|-&lt;br /&gt;
| 2 || 20.09 || Семинар ||  Решение задач MapReduce Streaming: подсчет количества слов, стоп-слов в Википедии, парсинг логов Apache. Distributed Cache. Метод Монте-Карло и большие данные.  Отладка MapReduce задач. || [https://piazza.com/class/jlpi5xisy065wj?cid=32 конспект]&lt;br /&gt;
|-&lt;br /&gt;
| 3 || 27.09 || Лекция ||  Advanced MapReduce. Расширение функциональности MapReduce: Combiner, Partitioner, Comparator. Использование Combiner для подсчета статистик: поиск среднего значения и медианы по ключу. Конфигурации Partitioner для агрегации биграмм и ip-адресов. Расширенные возможности сортировки при помощи Comparator. Передача данных и способы компрессии данных при выполнении MapReduce задач. Объединение датасетов: Map-Side Join, Reduce-Side Join. Расширенный контроль за порядком поступления данных: Secondary Sort. Интерфейс командной строки YARN: статус задачи, принудительное завершение вычислительных задач. Работа с неравномерно распределенными значениями ключей (Skew). Вычисление коэффициента ускорения работы MapReduce задач. || &lt;br /&gt;
|-&lt;br /&gt;
| 3 || 27.09 || Семинар || Решение задач на MapSide Join, Reduce-Side Join. Использование объединений для вычисления аналитики сегментов рынка. ||  [https://piazza.com/class/jlpi5xisy065wj?cid=69 конспект]&lt;br /&gt;
|-&lt;br /&gt;
| 4 || 04.10  || Лекция ||  Hive: мотивация, языковая модель. Проблема смещения данных в обработке больших данных. Применение SQL в IT индустрии. Сравнение решений Hive и MapReduce на примере задач анализа логов. Практика SQL: агрегация данных, фильтрация данных, сортировка, объединение таблиц. Архитектура Hive: Metastore + Hadoop + HDFS. Язык определения данных в Hive (Hive DDL): типы таблиц, разделители. Язык управления данными в Hive (Hive DML): загрузка данных, перезапись данных, CTAS. Парсер данных SerDe. || &lt;br /&gt;
|-&lt;br /&gt;
| 4 || 04.10 || Семинар ||  Работа с Hive: создание баз данных, таблиц. Работа с external таблицами, конструкция INSERT OVERWRITE для работы с external таблицами. Парсинг логов, задание типов в таблицах || &lt;br /&gt;
|-&lt;br /&gt;
| 5 || 11.10 || Лекция ||  Hive, расширенные возможности. Hive View: особенности, преимущества и недостатки. Пользовательские функции (UDF), пользовательские агрегирующие функции (UDAF), пользовательские функции для генерации таблиц (UDTF). Hive Streaming. Hive Partitioning, Bucketing and Sampling. Особенности Join в Hive. Исправление проблемы смещения в Hive. Поколоночное хранение в Hive (RCFile, ORC, Parquet) || [https://rebrand.ly/big_data_hse_fall_2018_lecture_5 презентация]&lt;br /&gt;
|-&lt;br /&gt;
| 5 || 11.10 || Семинар || Hive, расширенные возможности. Бенчмарк ORC vs Textfile. Пользовательские функции (UDF), пользовательские функции для генерации таблиц (UDTF). Hive Streaming, сэмплирование данных || [https://piazza.com/class/jlpi5xisy065wj?cid=101 конспект]&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
==Домашние задания==&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! &amp;#039;&amp;#039;&amp;#039;#&amp;#039;&amp;#039;&amp;#039; !! &amp;#039;&amp;#039;&amp;#039;Тип задания&amp;#039;&amp;#039;&amp;#039; !! &amp;#039;&amp;#039;&amp;#039;Тема&amp;#039;&amp;#039;&amp;#039; !! &amp;#039;&amp;#039;&amp;#039;Дата выдачи&amp;#039;&amp;#039;&amp;#039; !! &amp;#039;&amp;#039;&amp;#039;Дедлайн&amp;#039;&amp;#039;&amp;#039; !! &amp;#039;&amp;#039;&amp;#039;Количество баллов&amp;#039;&amp;#039;&amp;#039; !! &amp;#039;&amp;#039;&amp;#039;Ссылка&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
|-&lt;br /&gt;
| 1 || Тест || HDFS || 13.09 || 19.09 23:59 || 5 || http://rebrand.ly/big_data_hse_fall_2018_quiz_1_Urgz1&lt;br /&gt;
|-&lt;br /&gt;
| 1 || Практическое задание || HDFS || 06.09 || 19.09 23:59 || 100 || http://rebrand.ly/big_data_hse_fall_2018_hw_1&lt;br /&gt;
|-&lt;br /&gt;
| 2 || Тест || MapReduce. Основы || 20.09 || 26.09 23:59 || 5 || https://rebrand.ly/big_data_hse_fall_2018_quiz_2_FMHq&lt;br /&gt;
|-&lt;br /&gt;
| 2 || Практическое задание || MapReduce. Основы || 20.09 || 26.09 23:59 || 50 || [https://piazza.com/class/jlpi5xisy065wj?cid=30 Задание]&lt;br /&gt;
|-&lt;br /&gt;
| 2 || Бонусная задача || MapReduce. Основы || 20.09 || 23.09 23:59 || 20 || &lt;br /&gt;
|-&lt;br /&gt;
| 3 || Тест || MapReduce. Оптимизация || 27.09 || 03.10 23:59 || 5 || https://rebrand.ly/big_data_hse_fall_2018_quiz_3_oMku&lt;br /&gt;
|-&lt;br /&gt;
| 3 || Практическое задание || MapReduce. Объединения || 30.09 || 09.10 23:59 || 50 ||  [http://%20https://piazza.com/class/jlpi5xisy065wj?cid=72 Задание]&lt;br /&gt;
|-&lt;br /&gt;
| 4 || Тест || Hive 1 || 04.10 || 10.10 23:59 || 5 || [https://rebrand.ly/big_data_hse_fall_2018_quiz_4_wdOB Тест]&lt;br /&gt;
|-&lt;br /&gt;
| 4 || Практическое задание || Hive 1 || 07.10 || 15.10 23:59 || 50 ||&lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
==Материалы==&lt;br /&gt;
1. Полные материалы лекций, семинаров и домашних заданий доступны по ссылке: http://rebrand.ly/big_data_hse_fall_2018_materials&lt;br /&gt;
2.&lt;/div&gt;</summary>
		<author><name>imported&gt;Akhtyamovpavel</name></author>
	</entry>
</feed>