<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
	<id>https://www.wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%A3%D1%82%D0%B8%D0%BB%D0%B8%D1%82%D0%B0_%D0%B4%D0%BB%D1%8F_%D0%BE%D1%87%D0%B8%D1%81%D1%82%D0%BA%D0%B8_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2_%D0%BE%D1%82_%D0%BE%D0%B1%D1%81%D1%86%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9_%D0%BB%D0%B5%D0%BA%D1%81%D0%B8%D0%BA%D0%B8_%28%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%29</id>
	<title>Утилита для очистки текстов от обсценной лексики (проект) - История изменений</title>
	<link rel="self" type="application/atom+xml" href="https://www.wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%A3%D1%82%D0%B8%D0%BB%D0%B8%D1%82%D0%B0_%D0%B4%D0%BB%D1%8F_%D0%BE%D1%87%D0%B8%D1%81%D1%82%D0%BA%D0%B8_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2_%D0%BE%D1%82_%D0%BE%D0%B1%D1%81%D1%86%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9_%D0%BB%D0%B5%D0%BA%D1%81%D0%B8%D0%BA%D0%B8_%28%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%29"/>
	<link rel="alternate" type="text/html" href="https://www.wikicshse.ru/index.php?title=%D0%A3%D1%82%D0%B8%D0%BB%D0%B8%D1%82%D0%B0_%D0%B4%D0%BB%D1%8F_%D0%BE%D1%87%D0%B8%D1%81%D1%82%D0%BA%D0%B8_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2_%D0%BE%D1%82_%D0%BE%D0%B1%D1%81%D1%86%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9_%D0%BB%D0%B5%D0%BA%D1%81%D0%B8%D0%BA%D0%B8_(%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82)&amp;action=history"/>
	<updated>2026-06-06T16:22:42Z</updated>
	<subtitle>История изменений этой страницы в вики</subtitle>
	<generator>MediaWiki 1.45.3</generator>
	<entry>
		<id>https://www.wikicshse.ru/index.php?title=%D0%A3%D1%82%D0%B8%D0%BB%D0%B8%D1%82%D0%B0_%D0%B4%D0%BB%D1%8F_%D0%BE%D1%87%D0%B8%D1%81%D1%82%D0%BA%D0%B8_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2_%D0%BE%D1%82_%D0%BE%D0%B1%D1%81%D1%86%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9_%D0%BB%D0%B5%D0%BA%D1%81%D0%B8%D0%BA%D0%B8_(%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82)&amp;diff=1021&amp;oldid=prev</id>
		<title>imported&gt;Ira dolgaleva: Migrated current public revision from wiki.cs.hse.ru</title>
		<link rel="alternate" type="text/html" href="https://www.wikicshse.ru/index.php?title=%D0%A3%D1%82%D0%B8%D0%BB%D0%B8%D1%82%D0%B0_%D0%B4%D0%BB%D1%8F_%D0%BE%D1%87%D0%B8%D1%81%D1%82%D0%BA%D0%B8_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2_%D0%BE%D1%82_%D0%BE%D0%B1%D1%81%D1%86%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9_%D0%BB%D0%B5%D0%BA%D1%81%D0%B8%D0%BA%D0%B8_(%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82)&amp;diff=1021&amp;oldid=prev"/>
		<updated>2015-10-20T07:52:57Z</updated>

		<summary type="html">&lt;p&gt;Migrated current public revision from wiki.cs.hse.ru&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Новая страница&lt;/b&gt;&lt;/p&gt;&lt;div&gt;{{Карточка_проекта&lt;br /&gt;
|name=Утилита для очистки текстов от обсценной лексики&lt;br /&gt;
|mentor=Шестаков Андрей&lt;br /&gt;
|mentor_login={{URLENCODE:Ashestakoff|WIKI}}&lt;br /&gt;
|semester=Весна 2015&lt;br /&gt;
|course=1&lt;br /&gt;
|summer=&lt;br /&gt;
|categorize=yes&lt;br /&gt;
|is_archived=yes&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
=== Что это за проект? ===&lt;br /&gt;
[http://www.sketchengine.co.uk/ SketchEngine] - это сервис обработки текстовых корпусов, который показывает наиболее типичные перепредставленные и недопредставленные пары слов, синтаксически связанных в предложении. Для того, чтобы сервис выдавал осмысленные и приемлемые результаты, к исходному корпусу языка предъявляется ряд требований.&lt;br /&gt;
&lt;br /&gt;
В частности, для того, чтобы результаты данного сервиса приносили пользу лицам младше 18 лет, тексты корпуса должны быть отчищены от обсценной лексики.&lt;br /&gt;
&lt;br /&gt;
В рамках данного проекта предлагается разработать программу, позволяющую очищать тексты от матерной и другой нецензурной лексики.&lt;br /&gt;
&lt;br /&gt;
=== Чему вы научитесь? ===&lt;br /&gt;
#Основные задачи автоматической обработки текстов&lt;br /&gt;
#Некоторые методы автоматической  обработки текстов&lt;br /&gt;
##Токенизация (разбиение текста на слова и определение границ предложения)&lt;br /&gt;
##Лемматизация (привидение слова к начальной форме)&lt;br /&gt;
##Морфологический анализ (определение частей речи)&lt;br /&gt;
&lt;br /&gt;
=== Какие начальные требования? ===&lt;br /&gt;
* Знание python&lt;br /&gt;
* Умение работать с *nix (желательно)&lt;br /&gt;
&lt;br /&gt;
Проект не подразумевает разработку графической оболочки.&lt;br /&gt;
&lt;br /&gt;
=== Какие будут использоваться технологии? ===&lt;br /&gt;
* python&lt;br /&gt;
* NLTK&lt;br /&gt;
* gensim&lt;br /&gt;
* pymorphy2&lt;br /&gt;
&lt;br /&gt;
=== Направления развития ===&lt;br /&gt;
Реализованный прототип может быть использован как компонент вышеуказанного web-сервиса или как самостоятельное приложение для очистки произвольного входного текста.&lt;br /&gt;
&lt;br /&gt;
=== Критерии оценки ===&lt;br /&gt;
4-5: индексирование текстов из корпуса SketchEngine с помощью gensim и очистка по словарю обсцененной лексики&amp;lt;br /&amp;gt;&lt;br /&gt;
6-7: + с использованием лемматизации  корпуса SketchEngine &amp;lt;br /&amp;gt;&lt;br /&gt;
8-10: + разработка экспериментальной площадки для оценки точности-полноты очистки корпуса SketchEngine  или использование утилиты на произвольном входном тексте&amp;lt;br /&amp;gt;&lt;/div&gt;</summary>
		<author><name>imported&gt;Ira dolgaleva</name></author>
	</entry>
</feed>