<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
	<id>https://www.wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%9D%D0%B0%D0%B1%D0%BE%D1%80_%D0%B4%D0%BB%D1%8F_%D0%BA%D0%BE%D1%80%D0%BF%D1%83%D1%81%D0%B0_%22%D0%A1%D0%B4%D0%B5%D0%BB%D0%B0%D0%B9_%D1%81%D0%B0%D0%BC%22</id>
	<title>Набор для корпуса &quot;Сделай сам&quot; - История изменений</title>
	<link rel="self" type="application/atom+xml" href="https://www.wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=%D0%9D%D0%B0%D0%B1%D0%BE%D1%80_%D0%B4%D0%BB%D1%8F_%D0%BA%D0%BE%D1%80%D0%BF%D1%83%D1%81%D0%B0_%22%D0%A1%D0%B4%D0%B5%D0%BB%D0%B0%D0%B9_%D1%81%D0%B0%D0%BC%22"/>
	<link rel="alternate" type="text/html" href="https://www.wikicshse.ru/index.php?title=%D0%9D%D0%B0%D0%B1%D0%BE%D1%80_%D0%B4%D0%BB%D1%8F_%D0%BA%D0%BE%D1%80%D0%BF%D1%83%D1%81%D0%B0_%22%D0%A1%D0%B4%D0%B5%D0%BB%D0%B0%D0%B9_%D1%81%D0%B0%D0%BC%22&amp;action=history"/>
	<updated>2026-06-06T18:16:56Z</updated>
	<subtitle>История изменений этой страницы в вики</subtitle>
	<generator>MediaWiki 1.45.3</generator>
	<entry>
		<id>https://www.wikicshse.ru/index.php?title=%D0%9D%D0%B0%D0%B1%D0%BE%D1%80_%D0%B4%D0%BB%D1%8F_%D0%BA%D0%BE%D1%80%D0%BF%D1%83%D1%81%D0%B0_%22%D0%A1%D0%B4%D0%B5%D0%BB%D0%B0%D0%B9_%D1%81%D0%B0%D0%BC%22&amp;diff=1070&amp;oldid=prev</id>
		<title>imported&gt;GalinaKaleeva: Migrated current public revision from wiki.cs.hse.ru</title>
		<link rel="alternate" type="text/html" href="https://www.wikicshse.ru/index.php?title=%D0%9D%D0%B0%D0%B1%D0%BE%D1%80_%D0%B4%D0%BB%D1%8F_%D0%BA%D0%BE%D1%80%D0%BF%D1%83%D1%81%D0%B0_%22%D0%A1%D0%B4%D0%B5%D0%BB%D0%B0%D0%B9_%D1%81%D0%B0%D0%BC%22&amp;diff=1070&amp;oldid=prev"/>
		<updated>2017-07-28T13:13:32Z</updated>

		<summary type="html">&lt;p&gt;Migrated current public revision from wiki.cs.hse.ru&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Новая страница&lt;/b&gt;&lt;/p&gt;&lt;div&gt;{{Карточка_проекта&lt;br /&gt;
|name=Набор для корпуса &amp;quot;Сделай сам&amp;quot;&lt;br /&gt;
|mentor=Дмитрий Фролов&lt;br /&gt;
|mentor_login={{URLENCODE:Dmitry|WIKI}}&lt;br /&gt;
|semester=Весна 2016&lt;br /&gt;
|course=1&lt;br /&gt;
|summer=&lt;br /&gt;
|number_of_students=5&lt;br /&gt;
|categorize=yes&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
=== Что это за проект? ===&lt;br /&gt;
На факультете филологии НИУ ВШЭ имеется проект по сбору всех текстов, которые есть в Интернете (в том числе в соцсетях) на языках народов России. То есть получаются отдельные коллекции для башкирского, удмуртского, чувашского и т.д. Разного размера. В той части, которая вытянута из соцсетей, известно много об авторе: пол, возраст, дата рождения, город. &lt;br /&gt;
Необходим веб-сервис, который позволял бы не просто скачать все тексты архивом, а умел реагировать на такие, например, запросы от пользователя: &amp;quot;хочу коллекцию текстов на ингушском языке объёмом 100 000 слов, чтобы она состояла из записей в соцсетях людей из Назрани от 20 до 38 лет&amp;quot;. В запросной форме пользователь отмечает галочки, посылает запрос к серверу, а он позволяет скачать архив с набором файлов (в XML) и метатаблицей.&lt;br /&gt;
&lt;br /&gt;
=== Функциональность интерфейса ===&lt;br /&gt;
&lt;br /&gt;
# сначала выбирается язык (один из имеющихся), а потом всё остальное.&lt;br /&gt;
# пользователь может выбрать, хочет он корпус текстов только из соц.сети, только из интернета, просто N (захардкоженное число) токенов текста на одном из имеющихся у нас языков или всё целиком&lt;br /&gt;
# только текст на этом языке или с вкраплениями русского&lt;br /&gt;
# выбор по всяким параметрам авторов в соц.сети (пол, возраст, город говорящего).&lt;br /&gt;
# сохранять или не сохранять диалоговую структуру ВК-стены &lt;br /&gt;
&lt;br /&gt;
Примеры запросов:&lt;br /&gt;
&lt;br /&gt;
# хочу получить все тексты только на этом языке, написанные мужчинами до 24 лет&lt;br /&gt;
# хочу получить тексты из соц.сетей с сохранением структуры диалога и с русским текстом&lt;br /&gt;
# тоже самое, только без русского текста&lt;br /&gt;
# хочу получить тексты из интернета с 5 доменов.&lt;br /&gt;
&lt;br /&gt;
=== Чему вы научитесь? ===&lt;br /&gt;
# Основы проектирования и разработки клиент-серверных приложений&lt;br /&gt;
# Базовые знания Unix Shell&lt;br /&gt;
# Работа с нереляционными базами данных&lt;br /&gt;
&lt;br /&gt;
=== Какие начальные требования? ===&lt;br /&gt;
# Представление о технологиях создания веб-страниц&lt;br /&gt;
# Основы языка программирования Python&lt;br /&gt;
&lt;br /&gt;
=== Какие будут использоваться технологии? ===&lt;br /&gt;
# HTML/CSS, JavaScript, JQuery&lt;br /&gt;
# Python 2.7&lt;br /&gt;
# WebPy/Web2Py/Django&lt;br /&gt;
# Ubuntu Linux/OpenSUSE/FreeBSD, GNU Emacs или Vim - на выбор&lt;br /&gt;
# MongoDB&lt;br /&gt;
# git, github/bitbucket&lt;br /&gt;
# http-сервер Nginx/Apache (возможно - в связке с WSGI-сервером (Gunicorn))&lt;br /&gt;
&lt;br /&gt;
=== Темы вводных занятий ===&lt;br /&gt;
# Архитектура клиент-серверных приложений и основные принципы разработки. Средства разработки клиентской и серверной частей.&lt;br /&gt;
# Нереляционные базы данных, преимущества, недостатки, особенности использования&lt;br /&gt;
&lt;br /&gt;
=== Ориентировочное расписание занятий ===&lt;br /&gt;
СР 18.30-20.30&lt;br /&gt;
&lt;br /&gt;
=== Формат данных для скачанных файлов ===&lt;br /&gt;
&lt;br /&gt;
json  в таком формате:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
{&lt;br /&gt;
&amp;quot;downloaded_by&amp;quot;: &amp;quot;Tester&amp;quot;,&lt;br /&gt;
&amp;quot;download_date&amp;quot;: &amp;quot;2016-01-25 10:28:15.197639&amp;quot;,&lt;br /&gt;
&amp;quot;url&amp;quot;: &amp;quot;http://www.abazashta.com/club/forum/forum2/topic2/messages/?PAGEN_1=2&amp;quot;,&lt;br /&gt;
&amp;quot;domain&amp;quot;: &amp;quot;www.abazashta.com&amp;quot;,&lt;br /&gt;
&amp;quot;language&amp;quot;: &amp;quot;abq&amp;quot;,&lt;br /&gt;
&amp;quot;header&amp;quot;: &amp;quot;&amp;quot;,&lt;br /&gt;
&amp;quot;text&amp;quot;: {&lt;br /&gt;
&amp;quot;85&amp;quot;: {&lt;br /&gt;
&amp;quot;language&amp;quot;: &amp;quot;abq&amp;quot;,&lt;br /&gt;
&amp;quot;text&amp;quot;: &amp;quot;Адац-ач1выйа йг1аныпщтуа сахща?&amp;quot;&lt;br /&gt;
},&lt;br /&gt;
…&lt;br /&gt;
}&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Пример: https://yadi.sk/d/uU8n-O9XoxR5q (адыгейский)&lt;br /&gt;
&lt;br /&gt;
Нам бы хотелось, чтобы был вариант выгрузки в XML.&lt;br /&gt;
&lt;br /&gt;
=== Все данные из VK ===&lt;br /&gt;
&lt;br /&gt;
https://yadi.sk/d/BHF4aMU-ozyJz&lt;br /&gt;
&lt;br /&gt;
=== Списки доменов для крупных языков === &lt;br /&gt;
&lt;br /&gt;
# Башкирский: https://yadi.sk/d/kxWvlU_Wm7gAT&lt;br /&gt;
# Татарский: https://yadi.sk/d/KLfAB1ulm7gbG&lt;br /&gt;
# Якутский: https://yadi.sk/d/J9xKQjPKm7ghi&lt;br /&gt;
&lt;br /&gt;
Отсюда для обработки нужны: url_type1_by_folders.txt и url_type2.txt&lt;/div&gt;</summary>
		<author><name>imported&gt;GalinaKaleeva</name></author>
	</entry>
</feed>