<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
	<id>https://www.wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%9E%D1%81%D0%BD%D0%BE%D0%B2%D0%BD%D1%8B%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85</id>
	<title>Основные методы анализа данных - История изменений</title>
	<link rel="self" type="application/atom+xml" href="https://www.wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%9E%D1%81%D0%BD%D0%BE%D0%B2%D0%BD%D1%8B%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85"/>
	<link rel="alternate" type="text/html" href="https://www.wikicshse.ru/index.php?title=%D0%9E%D1%81%D0%BD%D0%BE%D0%B2%D0%BD%D1%8B%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85&amp;action=history"/>
	<updated>2026-06-06T17:04:41Z</updated>
	<subtitle>История изменений этой страницы в вики</subtitle>
	<generator>MediaWiki 1.45.3</generator>
	<entry>
		<id>https://www.wikicshse.ru/index.php?title=%D0%9E%D1%81%D0%BD%D0%BE%D0%B2%D0%BD%D1%8B%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85&amp;diff=1517&amp;oldid=prev</id>
		<title>imported&gt;Nevalennaya: Migrated current public revision from wiki.cs.hse.ru</title>
		<link rel="alternate" type="text/html" href="https://www.wikicshse.ru/index.php?title=%D0%9E%D1%81%D0%BD%D0%BE%D0%B2%D0%BD%D1%8B%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85&amp;diff=1517&amp;oldid=prev"/>
		<updated>2018-12-07T14:05:34Z</updated>

		<summary type="html">&lt;p&gt;Migrated current public revision from wiki.cs.hse.ru&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Новая страница&lt;/b&gt;&lt;/p&gt;&lt;div&gt;== О курсе ==&lt;br /&gt;
&lt;br /&gt;
Курс читается для студентов 3-го курса [https://cs.hse.ru/ami ПМИ ФКН ВШЭ] специализации [https://www.hse.ru/ba/ami/dais &amp;quot;Анализ Данных и Интеллектуальные Системы&amp;quot;] в 1-2 модулях 2018-2019 учебного года.&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Лектор:&amp;#039;&amp;#039;&amp;#039; [https://www.hse.ru/staff/bmirkin Миркин Борис Григорьевич]&lt;br /&gt;
&lt;br /&gt;
Занятия проходят по пятницам, 15:10-16:30 и 16:40-18:00, ауд. 501.&lt;br /&gt;
&lt;br /&gt;
Консультации по выполнению домашней работы проводятся по пятницам с 16:30.&lt;br /&gt;
&lt;br /&gt;
[https://drive.google.com/file/d/1bR_PI96by0KHhfmQ86RmSfeemRjKowpV/view?usp=sharing &amp;#039;&amp;#039;&amp;#039;Программа курса&amp;#039;&amp;#039;&amp;#039;]&lt;br /&gt;
&lt;br /&gt;
== Порядок формирования итоговой оценки ==&lt;br /&gt;
&lt;br /&gt;
Контроль знаний проводится в виде двухступенчатой процедуры. Отдельно оцениваются Домашний проект и Экзаменационная контрольная работа:&lt;br /&gt;
O&amp;lt;sub&amp;gt;итоговая&amp;lt;/sub&amp;gt; = 0.4 * O&amp;lt;sub&amp;gt;д/п&amp;lt;/sub&amp;gt; + 0.6 * О&amp;lt;sub&amp;gt;экз&amp;lt;/sub&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== Лекции ==&lt;br /&gt;
&lt;br /&gt;
[https://drive.google.com/file/d/1e52kZHjLUPz05e5t9zTzbUJ-ooGb2kdN/view?usp=sharing Лекция 28.09]&lt;br /&gt;
&lt;br /&gt;
[https://drive.google.com/file/d/1e1e9arZU6uYmJ7hR5mlkTUgNeTZCm-pm/view?usp=sharing Лекция 5.10]&lt;br /&gt;
&lt;br /&gt;
[https://drive.google.com/file/d/1eoageWEC_PYp-PPefraJYLzdQTH-faGT/view?usp=sharing Mirkin Rules for Cluster Interpretation]&lt;br /&gt;
&lt;br /&gt;
[https://drive.google.com/file/d/1FbYH-3vKI7Gm4AYTm2FDMjHO727aotsb/view?usp=sharing Лекция 12.10]&lt;br /&gt;
&lt;br /&gt;
[https://drive.google.com/file/d/1iVRhCzpdzUfQCYoMOtY25NpYfGg-gpde/view?usp=sharing Лекция 2.11]&lt;br /&gt;
&lt;br /&gt;
[https://drive.google.com/file/d/1nULrvo-svL0yS4-B8yGr6YXd9sfr_TLp/view?usp=sharing Лекция 9.11]&lt;br /&gt;
&lt;br /&gt;
[https://drive.google.com/file/d/1UigscgBNVJtB1nJHG-E3p_PhfFix_iZI/view?usp=sharing Лекция 16.11]&lt;br /&gt;
&lt;br /&gt;
[https://drive.google.com/file/d/1BZZprDCB3ESjLfUskwsAwP4EXNmToBrB/view?usp=sharing Все лекции (до 3.11) в pdf-формате]&lt;br /&gt;
&lt;br /&gt;
[https://drive.google.com/file/d/1_u9_p0-URPpCS2Pv4qveKz6QLi4rgyUF/view?usp=sharing Лекции 30.11 и 7.12]&lt;br /&gt;
&lt;br /&gt;
== Домашний проект ==&lt;br /&gt;
&lt;br /&gt;
Требуется прислать законченный отчет до 3.12.18 (+ ночь) на [mailto:bmirkin@hse.ru bmirkin@hse.ru] (необходимо предварительное согласование файла данных). Работы, сданные 4.12-13.12, тоже будут проверены, но со штрафом 30% от величины оценки. Работы, сданные 14.12 или позже, проверяться не будут (оценка 0).&lt;br /&gt;
&lt;br /&gt;
[https://drive.google.com/file/d/1G-sM3e1pyZua_3wOa6Uk9IKIN-liS7qz/view?usp=sharing Все домашние задания]&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Домашнее задание 1&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
1) Each to form/join a team of one, two or three; the team finds a meaningful dataset of their liking on the internet: say, by Googling “data analysis dataset”:&lt;br /&gt;
* Number of entities ≥ 80, of features ≥ 5&lt;br /&gt;
* No missing&lt;br /&gt;
* No Irivine ML repository&lt;br /&gt;
* The dataset is to be approved by me.&lt;br /&gt;
2) Start writing a team’s report file:&lt;br /&gt;
* Project title page &lt;br /&gt;
* Section 1:&lt;br /&gt;
# Explanation of the choice of the dataset&lt;br /&gt;
# Information of the dataset: features, number of entities, source address, examples of problems&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Домашнее задание 2&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
1) Выберите не менее трех количественных признаков, объясните выбор и примените метод К-средних (для K=5, для K=9). В обоих случаях сделайте порядка 10 случайных инициализаций и выберите то, которое доставляет минимум критерию метода.&lt;br /&gt;
&lt;br /&gt;
2) Проинтерпретируйте оба разбиения с помощью признаков таблицы данных. Объясните, какое из разбиений лучше с точки зрения интерпретации.&lt;br /&gt;
&lt;br /&gt;
3) Для одного из полученных разбиений:&lt;br /&gt;
* Сравните средние по какому-либо признаку в двух кластерах, используя бутстрэп.&lt;br /&gt;
* Найдите 95% доверительный интервал для среднего значения какого-либо признака на всем множестве объектов, используя бутстрэп. &lt;br /&gt;
* Для одного из кластеров сравните среднее на всем множестве для какого-либо признака с его средним внутри кластера, используя бутстрэп&lt;br /&gt;
Примечание: каждое применение бутстрэпа должно быть обоими методами, с опорой и без. &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Домашнее задание 3: Contingency Table&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
1) Consider three nominal features (one of them, not more, may be taken from nominal features in your data). &lt;br /&gt;
&lt;br /&gt;
2) Build two contingency tables over them: present a conditional frequency table and Quetelet relative index tables. Make comments on relations between categories of the common (to both tables) feature and two others.&lt;br /&gt;
&lt;br /&gt;
3) Compute and visualize the chi-square-summary_Quetelet_index over both tables. &lt;br /&gt;
&lt;br /&gt;
4) Comment on the meaning of the values in the data analysis context. &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Домашнее задание 4: PCA/SVD&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
1) In your data set, select a subset with 3 to 6 features related, more or less, to the same aspect and explain your choice.&lt;br /&gt;
&lt;br /&gt;
2) Visualize the data subset using standardization with two versions of normalization: (a) over ranges and (b) over standard deviations. At these visualizations, use a distinct shape/colour for points representing a pre-specified by you group of objects. &lt;br /&gt;
&lt;br /&gt;
3) Apply the conventional PCA for visualization and see if there is any difference with respect to (a)/(b) above. Comment on which of the normalizations is better, in your opinion, and why.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Домашнее задание 5&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
1) Find two features in your dataset with more or less “linear-like” scatterplot.&lt;br /&gt;
&lt;br /&gt;
2) Display the scatter-plot.&lt;br /&gt;
&lt;br /&gt;
3) Build a linear regression of one of the features over the other. Make a comment on the meaning of the slope.&lt;br /&gt;
&lt;br /&gt;
4) Find the correlation and determinacy coefficients, and comment on the meaning of the latter.&lt;br /&gt;
&lt;br /&gt;
5) Make a prediction of the target values for given two or three predictor’ values; make a comment.&lt;br /&gt;
&lt;br /&gt;
6) Compare the mean relative absolute error of the regression on all points of your set and the determinacy coefficient and make comments.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Домашнее задание 6&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
1) Возьмите три количественных признака в Ваших  данных и сформируйте бинарный признак по каждому из них. (Один из этих трех бинарных признаков может быть взят из данных непосредственно, тогда надо будет бинаризовать только два количественных признака.)&lt;br /&gt;
&lt;br /&gt;
2) Один из трех признаков сделайте «выходным» и рассмотрите две таблицы сопряженности для предсказания значения выходного признака по каждому из входных. Рассчитайте характеристики аккуратности, точности и полноты для каждой из таблиц. Прокомментируйте и сравните результаты.&lt;br /&gt;
&lt;br /&gt;
== Экзамен ==&lt;br /&gt;
&lt;br /&gt;
Дата: 14.12.18 Время работы: 80 мин. Количество вопросов: 6-7 (2 – теоретических, 4 – практических).&lt;br /&gt;
&lt;br /&gt;
Каждому вопросу приписана максимально возможная оценка по нему; сумма этих оценок равна 100%. При проверке каждый ответ оценивается в соответствии с уровнем покрытия материала в пределах приписанного к вопросу максимума. Сумма составляет оценку в процентах, и затем округляется до традиционной 10-балльной шкалы. Считается справедливым, если 52 и 53 округляются до 5, а 67 и 68 – до 7. Округление оценок, таких как 55 или 66 может основываться на дополнительной информации о прилежании студента. &lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;Примеры вопросов см. в программе курса.&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
[https://drive.google.com/file/d/1Cnk47oqLmYAA27NrfCHUKOTTqPIvFOLP/view?usp=sharing Файл в вопросами]&lt;br /&gt;
&lt;br /&gt;
== Обратная связь ==&lt;br /&gt;
&lt;br /&gt;
Миркин Борис Григорьевич: [mailto:bmirkin@hse.ru bmirkin@hse.ru]&lt;br /&gt;
&lt;br /&gt;
== Литература ==&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Основная&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
1.	[http://opac.hse.ru/absopac/index.php?url=/notices/index/218662/default B. Mirkin (2011/18) Core Concepts in Data Analysis: Summarization, Correlation, Visualization, Springer-London.] [https://drive.google.com/file/d/1iikSACFxKyRr7xwKpPW5zOqDbfXb822j/view?usp=sharing Авторская версия]&lt;br /&gt;
&lt;br /&gt;
2.	[http://opac.hse.ru/absopac/index.php?url=/notices/index/283033/default Б. Миркин (2017) Введение в анализ данных, М., Юрайт.] [https://drive.google.com/file/d/1yfqiGnm7c0e-gtecM1uG3Dd60Hfweyfa/view?usp=sharing Авторская версия]&lt;br /&gt;
&lt;br /&gt;
3.	R.O. Duda, P.E. Hart, D.G. Stork (2001) Pattern Classification, Wiley-Interscience, ISBN 0-471-05669-3&lt;br /&gt;
&lt;br /&gt;
4.	H. Lohninger (1999) Teach Me Data Analysis, Springer-Verlag, Berlin-New York-Tokyo, 1999. ISBN 3-540-14743-8.&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Дополнительная&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
1.	M. Berthold, D. Hand (2003), Intelligent Data Analysis, Springer-Verlag.&lt;br /&gt;
&lt;br /&gt;
2.	[http://opac.hse.ru/absopac/index.php?url=/notices/index/174411/default L. Breiman, J.H. Friedman, R.A. Olshen and C.J. Stone (1984) Classification and Regression Trees, Belmont, Ca: Wadswarth.] &lt;br /&gt;
&lt;br /&gt;
3.	[http://opac.hse.ru/absopac/index.php?url=/notices/index/3705/default B. Efron and R. Tibshirani (1993) An Introduction to Bootstrap, Chapman &amp;amp; Hall.]&lt;br /&gt;
&lt;br /&gt;
4.	[http://opac.hse.ru/absopac/index.php?url=/notices/index/196601/default J.F. Hair, W.C. Black, B.J. Babin, R.E. Anderson (2010) Multivariate Data Analysis, 7th Edition,  Prentice Hall, ISBN-10: 0-13-813263-1.]&lt;br /&gt;
&lt;br /&gt;
5.	J. Han, M. Kamber, J. Pei (2010) Data Mining: Concepts and Techniques, 3d Edition, Morgan Kaufmann Publishers.&lt;br /&gt;
&lt;br /&gt;
6.	[http://opac.hse.ru/absopac/index.php?url=/notices/index/10696/default М. Дж. Кендалл, А. Стьюарт (1973) Статистические выводы и связи, Наука, Москва.]&lt;br /&gt;
&lt;br /&gt;
7.	[http://opac.hse.ru/absopac/index.php?url=/notices/index/182585/default М.Б. Лагутин (2009) Наглядная математическая статистика, БИНОМ, Москва.]&lt;br /&gt;
&lt;br /&gt;
8.	L. Lebart, A. Morineau, M. Piron (1995) Statistique Exploratoire Multidimensionelle, Dunod, Paris, ISBN 2-10-002886-3.&lt;br /&gt;
&lt;br /&gt;
9.	[http://opac.hse.ru/absopac/index.php?url=/notices/index/278572/default C.D. Manning, P. Raghavan, H. Schütze (2008) Introduction to Information Retrieval, Cambridge University Press.]&lt;br /&gt;
&lt;br /&gt;
10.	R. Mazza (2009) Introduction to Information Visualization, Springer, ISBN: 978-1-84800-218-0.&lt;br /&gt;
&lt;br /&gt;
11.	[http://opac.hse.ru/absopac/index.php?url=/notices/index/292229/default W. McKinney (2013) Python for Data Analysis, O’Reilly Media, Sebastopol USA.] &lt;br /&gt;
&lt;br /&gt;
12.	[http://opac.hse.ru/absopac/index.php?url=/notices/index/12966/default Б.Г. Миркин (1985) Группировки в социально-экономических исследованиях, Финансы и статистика, Москва.]&lt;br /&gt;
&lt;br /&gt;
13.	T.M. Mitchell (2005) Machine Learning, McGraw Hill. [http://opac.hse.ru/absopac/index.php?url=/notices/index/301736/default (В библиотеке ВШЭ есть издание 1997 года)]&lt;br /&gt;
&lt;br /&gt;
14.	B. Schölkopf, A.J. Smola (2005) Learning with Kernels, The MIT Press.&lt;br /&gt;
&lt;br /&gt;
15.	Дж, Тьюки (1981) Анализ результатов наблюдений. Разведочный анализ. Мир, Москва.      &lt;br /&gt;
&lt;br /&gt;
16.	V. Vapnik (2006) Estimation of Dependences Based on Empirical Data, Springer Science + Business Media Inc., 2d edition. &lt;br /&gt;
&lt;br /&gt;
17.	A. Webb (2002) Statistical Pattern Recognition, Wiley and Son.&lt;br /&gt;
&lt;br /&gt;
== Дополнительная информация и ссылки ==&lt;/div&gt;</summary>
		<author><name>imported&gt;Nevalennaya</name></author>
	</entry>
</feed>