Открыть меню
683
286
3
15 тыс.
Wiki - Факультет компьютерных наук
Переключить меню настроек
Открыть персональное меню
Вы не представились системе
Ваш IP-адрес будет виден всем, если вы внесёте какие-либо изменения.

Распараллеливание парсинга форматов данных

Материал из Wiki - Факультет компьютерных наук
Компания Яндекс
Учебный семестр Осень 2018
Учебный курс 3-4-й курс
Максимальное количество студентов, выбравших проект: ?



Иногда узким местом при загрузке данных в ClickHouse является разбор формата входных данных (например, CSV). Хотя в ClickHouse уделено большое внимание, чтобы парсинг форматов был максимально эффективным, он всё же, ограничен скоростью одного процессорного ядра.

Предлагается превзойти это путём распараллеливания парсинга. Для этого в парсер форматов добавляется метод для быстрого получения чанка (куска файла для обработки, не пересекающего границы строк), так что чанки можно обрабатывать параллельно. Это будет полезно сделать для форматов CSV, TSV, JSONEachRow.