[Из песочницы] Запускаем LDA в реальном мире. Подробное руководство

Предисловие На просторах интернета имеется множество туториалов объясняющих принцип работы LDA и то, как применять его на практике. Примеры обучения LDA часто демонстрируются на "образцовых" датасетах, например "20 newsgroups dataset", который есть в sklearn. Особенностью обучения на примере "образцовых" датасетов является то, что данные там всегда в порядке и удобно сложены в одном месте. При обучении продакшн моделей, на данных, полученных прямиком из реальных источников все обычно наоборот: Много выбросов. Неправильная разметка(если она есть). Очень сильные дисбалансы классов и 'некрасивые' распределения каких-либо параметров датасета. Для текстов, это: грамматические ошибки, огромное кол-во редких и уникальных слов, многоязычность. Неудобный способ харнения данных(разные или редкие форматы, необходимость парсинга) Исторически, я стараюсь учиться на примерах, максимально приближенных к реалиям продакшн-действительности потому, что именно таким образом можно наиболее полно прочувстовать проблемные места конкретного типа задач. Так было и с LDA и в этой статье я хочу поделиться своим опытом — как запускать LDA с нуля, на совершенно сырых данных. Некоторая часть статьи будет посвящена получению этих самых данных, для того, чтобы пример обрел вид полноценного 'инженерного кейса'. Читать дальше →

3 д.