<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
	<id>https://www.wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%A1%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F_%D0%B8_%D1%80%D0%B5%D1%84%D0%BE%D1%80%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%B1%D0%B0%D0%B7%D1%8B_%D0%B8%D0%B7%D0%B2%D0%BB%D0%B5%D1%87%D0%B5%D0%BD%D0%BD%D1%8B%D1%85_%D0%B7%D0%BD%D0%B0%D0%BD%D0%B8%D0%B9_%28%D0%BA%D0%BE%D0%BC%D0%B0%D0%BD%D0%B4%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%29</id>
	<title>Систематизация и реформирование базы извлеченных знаний (командный проект) - История изменений</title>
	<link rel="self" type="application/atom+xml" href="https://www.wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%A1%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F_%D0%B8_%D1%80%D0%B5%D1%84%D0%BE%D1%80%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%B1%D0%B0%D0%B7%D1%8B_%D0%B8%D0%B7%D0%B2%D0%BB%D0%B5%D1%87%D0%B5%D0%BD%D0%BD%D1%8B%D1%85_%D0%B7%D0%BD%D0%B0%D0%BD%D0%B8%D0%B9_%28%D0%BA%D0%BE%D0%BC%D0%B0%D0%BD%D0%B4%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%29"/>
	<link rel="alternate" type="text/html" href="https://www.wikicshse.ru/index.php?title=%D0%A1%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F_%D0%B8_%D1%80%D0%B5%D1%84%D0%BE%D1%80%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%B1%D0%B0%D0%B7%D1%8B_%D0%B8%D0%B7%D0%B2%D0%BB%D0%B5%D1%87%D0%B5%D0%BD%D0%BD%D1%8B%D1%85_%D0%B7%D0%BD%D0%B0%D0%BD%D0%B8%D0%B9_(%D0%BA%D0%BE%D0%BC%D0%B0%D0%BD%D0%B4%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82)&amp;action=history"/>
	<updated>2026-06-06T14:04:54Z</updated>
	<subtitle>История изменений этой страницы в вики</subtitle>
	<generator>MediaWiki 1.45.3</generator>
	<entry>
		<id>https://www.wikicshse.ru/index.php?title=%D0%A1%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F_%D0%B8_%D1%80%D0%B5%D1%84%D0%BE%D1%80%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%B1%D0%B0%D0%B7%D1%8B_%D0%B8%D0%B7%D0%B2%D0%BB%D0%B5%D1%87%D0%B5%D0%BD%D0%BD%D1%8B%D1%85_%D0%B7%D0%BD%D0%B0%D0%BD%D0%B8%D0%B9_(%D0%BA%D0%BE%D0%BC%D0%B0%D0%BD%D0%B4%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82)&amp;diff=1635&amp;oldid=prev</id>
		<title>imported&gt;Ilya Kuzminov: Migrated current public revision from wiki.cs.hse.ru</title>
		<link rel="alternate" type="text/html" href="https://www.wikicshse.ru/index.php?title=%D0%A1%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F_%D0%B8_%D1%80%D0%B5%D1%84%D0%BE%D1%80%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%B1%D0%B0%D0%B7%D1%8B_%D0%B8%D0%B7%D0%B2%D0%BB%D0%B5%D1%87%D0%B5%D0%BD%D0%BD%D1%8B%D1%85_%D0%B7%D0%BD%D0%B0%D0%BD%D0%B8%D0%B9_(%D0%BA%D0%BE%D0%BC%D0%B0%D0%BD%D0%B4%D0%BD%D1%8B%D0%B9_%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82)&amp;diff=1635&amp;oldid=prev"/>
		<updated>2017-10-16T20:04:26Z</updated>

		<summary type="html">&lt;p&gt;Migrated current public revision from wiki.cs.hse.ru&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Новая страница&lt;/b&gt;&lt;/p&gt;&lt;div&gt;{{Карточка_командного_проекта&lt;br /&gt;
|name=Систематизация и реформирование базы извлеченных знаний&lt;br /&gt;
|company=ИСИЭЗ НИУ ВШЭ&lt;br /&gt;
|semester=Осень 2017&lt;br /&gt;
|course=3&lt;br /&gt;
|number_of_students=2-5&lt;br /&gt;
|categorize=yes&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
=== Что это за проект? ===&lt;br /&gt;
Это проект по созданию единой структуры базы извлеченных знаний, с помощью которой можно будет проследить наследуемость, схожесть (близость) данных, обнаружить новые связи и на основании их получить новые знания.&lt;br /&gt;
Извлеченные данные уже автоматически загружены в унифицированном для всех их источников формате в облачное хранилище в виде таблиц баз данных (мы используем PostgreSQL).&lt;br /&gt;
Необходимо таблицы разного формата, например такие (фактические данные будут отличаться, но принцип оформления буквально тот же):&lt;br /&gt;
----&lt;br /&gt;
:1. Продукция совхоза имени Ленина&lt;br /&gt;
::a. Фрукты&lt;br /&gt;
:::i. Яблоки&lt;br /&gt;
::::ii. Сорт «Грени»&lt;br /&gt;
----&lt;br /&gt;
&lt;br /&gt;
1.Фермерское хозяйство ООО «Солнышко» -&amp;gt; 2. Продукты -&amp;gt; 2.1. Голден-Смит, Яблоки;  2. 2. Сезонные, Яблоки; 2.3. Сезонные, Помидоры; 2.4. Сезонные, Груши; 2.5. Подмосковные, Огурцы.&lt;br /&gt;
----&lt;br /&gt;
 &lt;br /&gt;
привести к единому формату, причем так, чтобы с помощью sql-запроса можно было, например, получить всех «детей» какого-то элемента [в данном случае сорта] определенного вида продукции (тех же яблок или груш). &lt;br /&gt;
 &lt;br /&gt;
В ходе работы над этим проектом придется решить множество задач по извлечению и очистке данных от шума и мусора, а также выработать наиболее оптимальный алгоритм по нахождению близости между одноуровневыми элементами разных списков, возможно даже, между элементами разных уровней.&lt;br /&gt;
 &lt;br /&gt;
Алгоритм нахождения близости должен быть подобран студентами на основании проведенного ими анализа и сравнения (экспериментально) точности существующих средств по приведению формы слова к нормальной (мн. ч. к ед. ч. [data &amp;lt;=&amp;gt; datum], избавление от окончаний родов\падежей и т.п.) в контексте решаемой задачи; по приведению словарной базы к единому знаменателю: векторному\численному представлению, например, с помощью word2vec, sense2vec и подобных. &lt;br /&gt;
&lt;br /&gt;
Для проведения такого анализа в частности потребуется использование либо обученной модели данных, либо модифицированной самими студентами для нужд данной задачи имеющейся модели, либо же создание студентами собственной.&lt;br /&gt;
&lt;br /&gt;
В итоге у команды, работающей над этим проектом, должен будет получиться набор sql-запросов и таблиц, позволяющих обращаться напрямую к любым элементам структуры, извлекать их, и применять к ним ко всем без дополнительной подготовки со стороны пользователя аналитические инструменты.&lt;br /&gt;
&lt;br /&gt;
=== Чему научатся студенты? Что самое интересное в проекте? ===&lt;br /&gt;
Анализировать и приводить к стандартному виду большие объемы совершенно разрозненных данных.&lt;br /&gt;
Работать с базами данных, разрабатывать сложные алгоритмы извлечения, обработки, стандартизации и сравнения данных.&lt;br /&gt;
Применять и дорабатывать для практических нужд теоретические алгоритмы компьютерной лингвистики.&lt;br /&gt;
Работать с инструментами машинного обучения на уровне, позволяющем решать реальные задачи. Модифицировать\обучать собственные модели данных.&lt;br /&gt;
Работать с облачными сервисами БД (например, AWS).&lt;br /&gt;
Командной работе (не только с программистами, но и с аналитиками и пр. специалистами); работе в крупном проекте, где каждый завершенный этап является важным элементом всего проекта и можно наглядно наблюдать практическую значимость проделанной работы.&lt;br /&gt;
&lt;br /&gt;
=== Организация работы (Как студенты будут работать в команде?) ===&lt;br /&gt;
Работа над проектом будет состоять из следующих этапов:&lt;br /&gt;
* Самостоятельное ознакомление с базовыми возможностями основных инструментами и библиотек, используемых для разработки проекта;&lt;br /&gt;
* Ознакомление с имеющимися в базе знаний данными, ознакомление со структурой этих данных;&lt;br /&gt;
* Распределение обязанностей и начало разработки над проектом (тестовое)&lt;br /&gt;
* Консультирование по первому (пробному) этапу работы над проектом, обсуждение проблем (технических, командных и пр.), установка плана работ над проектом (milestones и пр.)&lt;br /&gt;
* Периодическая проверка на соответствие текущего состояния проработанности проекта обозначенному плану.&lt;br /&gt;
* Финальная проверка реализации проекта.&lt;br /&gt;
&lt;br /&gt;
=== Компоненеты (Из каких частей состоит проект?) ===&lt;br /&gt;
* База извлеченных знаний, располагающаяся на облачном сервисе (с которой студентам предстоит работать);&lt;br /&gt;
* Описание разработанной унифицированной структуры базы данных (небольшой технический отчет о том, какие функции используются для обработки первичных данных, для приведения их к стандартизированному виду, для разбиения на элементы структуры; краткое описание формата итоговых таблиц)&lt;br /&gt;
* Описание работы с моделью и инструментами машинного обучения&lt;br /&gt;
* Таблицы, полученные в результате обработки первичных данных&lt;br /&gt;
* Таблицы с обработанными данными и проработанной структурой&lt;br /&gt;
* Выполненные в ходе работы над проектом sql-запросы (с комментариями)&lt;br /&gt;
* Полученные результаты машинного обучения&lt;br /&gt;
* Дополнительные отчеты\листинги\пояснительные записки по проекту (если возникнет такая производственная необходимость)&lt;br /&gt;
&lt;br /&gt;
=== Какие будут использоваться технологии? ===&lt;br /&gt;
PostgreSQL, REGEXP, алгоритмы нахождения близости (Jaccard Similarity, Sorensen–Dice coefficient), алгоритмы машинного обучения (посредством библиотек SpaCy/NLTK и т.п.)&lt;br /&gt;
&lt;br /&gt;
Amazon Web Services&lt;br /&gt;
&lt;br /&gt;
=== Какие начальные требования? ===&lt;br /&gt;
Знание SQL на уровне, достаточном для быстрого освоения более специфичных для наших задач возможностей PostgreSQL (в идеале — опыт работы с PostgreSQL)&lt;br /&gt;
Желательно знание R (возможно, пригодится для понимания или написания некоторых функций). &lt;br /&gt;
Знание Python (в идеале – опыт работы с машинным обучением)&lt;br /&gt;
&lt;br /&gt;
=== Темы вводных занятий ===&lt;br /&gt;
* Особенности работы с нашими хранилищами данных.&lt;br /&gt;
* Особенности работы с имеющимися у нас структурами данных.&lt;br /&gt;
&lt;br /&gt;
=== Критерии оценки ===&lt;br /&gt;
&amp;#039;&amp;#039;0-3&amp;#039;&amp;#039;: Не написаны запросы по обработке и\или структуризации данных. Данные обработаны крайне плохо. Нет возможности «достать» наследующие элементы структуры.&lt;br /&gt;
 &lt;br /&gt;
&amp;#039;&amp;#039;4-5&amp;#039;&amp;#039;: Написанные запросы работают, обрабатывая все или большую часть доступных данных, данные загружаются в правильном формате. По необъективным причинам в данных присутствует большое количество шума, мусора, и\или некоторая часть данных, доступная для структуризации, не была извлечена, обработана и структурирована. А также работа с данными производилась на локальных устройствах. Проект не имеет отчетности, код запросов представлен без комментариев.&lt;br /&gt;
 &lt;br /&gt;
&amp;#039;&amp;#039;6-7&amp;#039;&amp;#039;: Написанные запросы работают, обрабатывая все или большую часть доступных данных, данные приведены к единой структуре, есть возможность извлечения элементов-детей и родителей по детям. Небольшая часть данных, доступная для очистки и обработки, не была обработана и структуризирована. В коде запросов присутствуют комментарии, достаточные для их понимания. Предоставлена отчетность по структуре заполнения таблиц и функционалу разработанных алгоритмов, позволяющая получить достаточное представление о том, как создавался и из чего состоит финальный результат проекта.&lt;br /&gt;
 &lt;br /&gt;
&amp;#039;&amp;#039;8-10&amp;#039;&amp;#039;: Написанные запросы работают, извлекая все доступные данные из БД, данные загружаются в правильном формате на единое общедоступное облачное хранилище. Данные очищены от мусора и шума, обработаны и структуризированы в полном объеме. Код запросов полностью закомментирован (опуская комментирование встроенных функций и пр. очевидные вещи). Предоставлен достаточно детализированный отчет о полученной структуре данных, разработанных функциях и алгоритмах.&lt;br /&gt;
&lt;br /&gt;
=== Похожие проекты ===&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
=== Контактная информация ===&lt;br /&gt;
&lt;br /&gt;
Ментор: [[Участник:Ilya Kuzminov|Кузьминов Илья Филиппович]]&lt;br /&gt;
&lt;br /&gt;
Email: &amp;#039;&amp;#039;ikuzminov@hse.ru&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
Рабочий телефон: +7 (495) 772-9590 доб. 12022&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Технические\организационные и пр. вопросы: &amp;#039;&amp;#039;Юлия Исаева&amp;#039;&amp;#039; &amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
Email: &amp;#039;&amp;#039;yisaeva@hse.ru&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
Тел.: +7 (495) 772 9590 доб. 22543&lt;/div&gt;</summary>
		<author><name>imported&gt;Ilya Kuzminov</name></author>
	</entry>
</feed>