<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
	<id>https://www.wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=Data_Engineering_24%2F25_%28%D0%9C%D0%9E%D0%92%D0%A123%29</id>
	<title>Data Engineering 24/25 (МОВС23) - История изменений</title>
	<link rel="self" type="application/atom+xml" href="https://www.wikicshse.ru/index.php?action=history&amp;feed=atom&amp;title=Data_Engineering_24%2F25_%28%D0%9C%D0%9E%D0%92%D0%A123%29"/>
	<link rel="alternate" type="text/html" href="https://www.wikicshse.ru/index.php?title=Data_Engineering_24/25_(%D0%9C%D0%9E%D0%92%D0%A123)&amp;action=history"/>
	<updated>2026-06-08T17:54:02Z</updated>
	<subtitle>История изменений этой страницы в вики</subtitle>
	<generator>MediaWiki 1.45.3</generator>
	<entry>
		<id>https://www.wikicshse.ru/index.php?title=Data_Engineering_24/25_(%D0%9C%D0%9E%D0%92%D0%A123)&amp;diff=179&amp;oldid=prev</id>
		<title>imported&gt;Mmustafaeva: ДЗ2</title>
		<link rel="alternate" type="text/html" href="https://www.wikicshse.ru/index.php?title=Data_Engineering_24/25_(%D0%9C%D0%9E%D0%92%D0%A123)&amp;diff=179&amp;oldid=prev"/>
		<updated>2024-12-04T22:29:06Z</updated>

		<summary type="html">&lt;p&gt;ДЗ2&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Новая страница&lt;/b&gt;&lt;/p&gt;&lt;div&gt;==О курсе==&lt;br /&gt;
Занятия проводятся в Zoom &amp;#039;&amp;#039;&amp;#039;по вторникам в 19:40 - 21:00&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
==Контакты==&lt;br /&gt;
&lt;br /&gt;
Канал / чат курса в TG: [https://t.me/+zcD5OxdZ2H8wMGQy channel]&lt;br /&gt;
&lt;br /&gt;
Преподаватель: 1) Сайков Александр 2) Анатолий Бардуков&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
 ! Занятие !! Тема !! Дата !! Материалы для самоподготовки к семинарам&lt;br /&gt;
|-&lt;br /&gt;
| style=&amp;quot;background:#eaecf0;&amp;quot; | &amp;#039;&amp;#039;&amp;#039;1&amp;#039;&amp;#039;&amp;#039; [https://vk.com/video/playlist/-227011779_14?z=video-227011779_456239135%2Fclub227011779%2Fpl_-227011779_14 Запись] || [https://docs.google.com/presentation/d/1m-V4EHdipnWpj3YCvNedPspEYSYQA1kT/edit?usp=sharing&amp;amp;ouid=117622678388551209202&amp;amp;rtpof=true&amp;amp;sd=true Введение инженер данных] || 06.11.2024 || &lt;br /&gt;
|-&lt;br /&gt;
| style=&amp;quot;background:#eaecf0;&amp;quot; | &amp;#039;&amp;#039;&amp;#039;2&amp;#039;&amp;#039;&amp;#039; [https://vk.com/video/playlist/-227011779_14?z=video-227011779_456239144%2Fclub227011779%2Fpl_-227011779_14 Запись] || [https://docs.google.com/presentation/d/11roSjzUdEujxs9C6hqN1SHUV3DkmxLNT/edit?usp=sharing&amp;amp;ouid=117622678388551209202&amp;amp;rtpof=true&amp;amp;sd=true PostgreSQL, Схема данных, Slowly Changing Dimensions] ||12.11.2024 || &lt;br /&gt;
|-&lt;br /&gt;
| style=&amp;quot;background:#eaecf0;&amp;quot; | &amp;#039;&amp;#039;&amp;#039;3&amp;#039;&amp;#039;&amp;#039; [https://vkvideo.ru/playlist/-227011779_14/video-227011779_456239179 Запись] || [https://docs.google.com/presentation/d/159P4b7ndBmF-sZbxZKJ9S86wdejxT8ju/edit?usp=sharing&amp;amp;ouid=107809942589012152758&amp;amp;rtpof=true&amp;amp;sd=true Агрегатные функции, SCD] || 23.11.2024 ||&lt;br /&gt;
|-&lt;br /&gt;
| style=&amp;quot;background:#eaecf0;&amp;quot; | &amp;#039;&amp;#039;&amp;#039;4&amp;#039;&amp;#039;&amp;#039;  [https://vkvideo.ru/playlist/-227011779_14/video-227011779_456239188 Запись] || [https://docs.google.com/presentation/d/14NLqIUhzYBWnApkHwyzswH6zVaMSBTF-/edit?usp=sharing&amp;amp;ouid=107809942589012152758&amp;amp;rtpof=true&amp;amp;sd=true Регулярные выражения] || 26.11.2024 || &lt;br /&gt;
|-&lt;br /&gt;
| style=&amp;quot;background:#eaecf0;&amp;quot; | &amp;#039;&amp;#039;&amp;#039;5&amp;#039;&amp;#039;&amp;#039; [https://vkvideo.ru/playlist/-227011779_14/video-227011779_456239209 Запись] || [https://docs.google.com/presentation/d/1unBxoZRdVfco7Jsm886BFm0FXWJqe_mE/edit?usp=sharing&amp;amp;ouid=107809942589012152758&amp;amp;rtpof=true&amp;amp;sd=true Оптимизация запросов и CDC] || 03.12.2024 || &lt;br /&gt;
|-&lt;br /&gt;
| style=&amp;quot;background:#eaecf0;&amp;quot; | &amp;#039;&amp;#039;&amp;#039;6&amp;#039;&amp;#039;&amp;#039; [Запись] || Пример ETL процесса || 10.12.2024 || &lt;br /&gt;
|-&lt;br /&gt;
| style=&amp;quot;background:#eaecf0;&amp;quot; | &amp;#039;&amp;#039;&amp;#039;7&amp;#039;&amp;#039;&amp;#039; [Запись] || Оптимизация производительности || 17.12.2024 || &lt;br /&gt;
|-&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
=== Записи консультаций ===&lt;br /&gt;
(Если они будут)&lt;br /&gt;
&lt;br /&gt;
==Формула оценивания==&lt;br /&gt;
Запланированы 3 дз (2 дз на 1 неделю, проект на 2 недели), тесты к каждой неделе курса&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Оценка&amp;#039;&amp;#039;&amp;#039; = &amp;#039;&amp;#039;&amp;#039;0.3&amp;#039;&amp;#039;&amp;#039;*проект + &amp;#039;&amp;#039;&amp;#039;0.5&amp;#039;&amp;#039;&amp;#039;*практические задания + &amp;#039;&amp;#039;&amp;#039;0.2&amp;#039;&amp;#039;&amp;#039;*тесты&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;UPD1:&amp;#039;&amp;#039;&amp;#039; начиная со второго домашнего задания, снимаем 1 балл раз в три дня за сдачу после deadline, но ниже 4 не снимаем. &lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;UPD2:&amp;#039;&amp;#039;&amp;#039; начиная с 3 ДЗ снимаем до 1 балла за неаккуратное оформление кода (не следует общеизвестным sql style guides)&lt;br /&gt;
== Домашние задания ==&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;ДЗ 1 состоит из 2х частей:&amp;#039;&amp;#039;&amp;#039; &lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Часть 1&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
Создайте структуру базы данных по выбранной вами тематике из списка ниже.&lt;br /&gt;
&lt;br /&gt;
Предметные области (выберите одну):&lt;br /&gt;
 Продажа автомобилей / Приют для животных / Железнодорожные перевозки / Служба доставки / Организация марафона&lt;br /&gt;
&lt;br /&gt;
Требования к базе данных:&lt;br /&gt;
 •   Должно быть не менее 4 сущностей (включая технические объекты).&lt;br /&gt;
 •   Должна быть хотя бы одна связь один-ко-многим.&lt;br /&gt;
 •   Должна быть хотя бы одна связь многие-ко-многим.&lt;br /&gt;
 •   Все отношения приведены к третьей нормальной форме (3НФ).&lt;br /&gt;
&lt;br /&gt;
Требования к оформлению:&lt;br /&gt;
 •   ER-диаграмму необходимо составить на app.dbdesigner.net. На проверку нужно прислать ссылку на диаграмму.&lt;br /&gt;
 •   Также необходимо подготовить SQL-скрипт с DDL для создания таблиц (обратите внимание на ограничения) и заполнения примерами данных.&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Часть 2&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
1.  Создайте таблицу ****_SALARY_HIST, где **** — ваш уникальный идентификатор. &lt;br /&gt;
В таблице должна быть SCD2 версия таблицы de.histgroup с полями:&lt;br /&gt;
 •  PERSON&lt;br /&gt;
 •   CLASS&lt;br /&gt;
 •   SALARY&lt;br /&gt;
 •   EFFECTIVE_FROM&lt;br /&gt;
 •   EFFECTIVE_TO&lt;br /&gt;
&lt;br /&gt;
2.  Используя таблицы ****_SALARY_HIST и de.salary_payments, напишите SQL-скрипт создания таблицы ****_SALARY_LOG платежей сотрудникам, где&lt;br /&gt;
 •   PAYMENT_DT — дата выплаты&lt;br /&gt;
 •   PERSON&lt;br /&gt;
 •   PAYMENT&lt;br /&gt;
 •   MONTH_PAID — суммарно выплачено в месяце на дату последней выплаты&lt;br /&gt;
 •   MONTH_REST — осталось выплатить за месяц&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;В ответе приложите SQL-скрипты, ссылку на ER-диаграмму&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Дедлайн: 01.12.2024 23.59&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
------------------------------&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;ДЗ 2 состоит из 2х частей:&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Часть 1 (5 баллов)&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
На основе таблиц DE.LOG и DE.IP создайте структурированную таблицу посещений, отчет, который показывает, какой браузер является наиболее используемым в каждой области:&lt;br /&gt;
XXXX_LOG ( DT DATE, LINK VARCHAR( 50 ), USER_AGENT VARCHAR( 200 ), REGION VARCHAR( 30 )) &lt;br /&gt;
XXXX_LOG_REPORT ( REGION VARCHAR( 30 ), BROWSER VARCHAR( 10 ))&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Часть 2 (5 баллов) &amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
Представьте, вы работаете в медицинской клинике. Результаты анализов поступают в зашифрованном виде в файле medicine.xlsx. На сервере имеются таблицы de.med_an_name и de.med_name для расшифровки показателей.&lt;br /&gt;
&lt;br /&gt;
Требуется:&lt;br /&gt;
 1. Легкий режим (максимум 3 балла):&lt;br /&gt;
 •   Получите данные с листа &amp;#039;easy&amp;#039; в файле medicine.xlsx.&lt;br /&gt;
 •   Найдите пациентов, у которых хотя бы один анализ вне нормы.&lt;br /&gt;
 •   Выведите следующую информацию:Телефон, Имя, Название анализа, Заключение: &amp;#039;Повышен&amp;#039; или &amp;#039;Понижен&amp;#039;.&lt;br /&gt;
 •   Сохраните результат в формате .xlsx.&lt;br /&gt;
&lt;br /&gt;
 2. Сложный режим (максимум 5 баллов):&lt;br /&gt;
 •   Получите данные с листа &amp;#039;hard&amp;#039; в файле medicine.xlsx.&lt;br /&gt;
 •   Найдите пациентов, у которых два и более анализов вне нормы.&lt;br /&gt;
 •   Выведите следующую информацию: Телефон , Имя, Название анализа, Заключение: &amp;#039;Повышен&amp;#039;, &amp;#039;Понижен&amp;#039; или &amp;#039;Положительный&amp;#039;.&lt;br /&gt;
 •   Сохраните результат в формате .xlsx.&lt;br /&gt;
&lt;br /&gt;
В обоих режимах сохраните таблицу с расшифрованными значениями и результатами анализа в таблице public.xxxx_med_results в базе данных (помните про 4 буквы в начале, идентифицирующие вашу таблицу).&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Дедлайн: 11.12.2024 23.59&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
#&lt;br /&gt;
#&lt;br /&gt;
&lt;br /&gt;
== Литература ==&lt;br /&gt;
* Kimball, R. and M. Ross. The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (Second Edition), 2002&lt;br /&gt;
* Inmon, W. H., Teradata, and Corporation. (2016). Building the Data Warehouse. John Wiley &amp;amp; Sons. &amp;lt;br/&amp;gt; Redman, T. C. (1996). Data Quality: The Field Guide. Digital Press.&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Медленно_меняющееся_измерение &amp;quot;Медленно меняющееся измерение (SCD)&amp;quot;]&lt;br /&gt;
* Connelly, J. Asynchronous Data Dependencies in Distributed Systems. ACM Digital Library.&amp;lt;br/&amp;gt;Ousterhout, J. A. (2013). A Philosophy of Software Design. Addison-Wesley.&amp;lt;br/&amp;gt;Martin, R. C. (2017). Clean Architecture: A Craftsman&amp;#039;s Guide to Software Structure and Design. Pearson Education.&amp;lt;br/&amp;gt;Fowler, M. (2012). Patterns of Enterprise Application Architecture. Addison-Wesley.&amp;lt;br/&amp;gt;Смит, М., &amp;amp; Дэвидсон, Р. (2015). Разработка эффективных алгоритмов и программ. Вильямс.&amp;lt;br/&amp;gt;Gamma, E., Helm, R., Johnson, R., &amp;amp; Vlissides, J. (1994). Design Patterns: Elements of Reusable Object-Oriented Software. Addison-Wesley.&lt;br /&gt;
* &lt;br /&gt;
* &amp;quot;SQL Performance Explained&amp;quot; by Markus Winand. &amp;lt;br/&amp;gt;&amp;quot;High Performance MySQL&amp;quot; by Baron Schwartz, Peter Zaitsev, Vadim Tkachenko. &amp;lt;br/&amp;gt; &amp;quot;Designing Data-Intensive Applications&amp;quot; by Martin Kleppmann. &amp;lt;br/&amp;gt;&amp;quot;The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling&amp;quot; by Ralph Kimball and Margy Ross. &amp;lt;br/&amp;gt; &amp;quot;Practical ETL Design: Building High-Performance Data Integration Systems&amp;quot; by Jordan Tigani and Christopher Jones.&lt;br /&gt;
...&lt;br /&gt;
* Jay Kreps - &amp;quot;I Heart Logs: Event Data, Stream Processing, and Data Integration&amp;quot; &amp;lt;br/&amp;gt; Nathan Marz, James Warren - &amp;quot;Big Data: Principles and best practices of scalable real-time data systems&amp;quot;&lt;/div&gt;</summary>
		<author><name>imported&gt;Mmustafaeva</name></author>
	</entry>
</feed>