Динамическое пополнение и отсев словарей энграмм #38

ofrei · 2016-09-26T08:17:18Z

В динамически растущей коллекции по мере прихода новых батчей могут появляться новые слова и энграммы (эта проблема вроде давно решена).
Хотелось бы решать задачу отбора энграмм и битермов по мере роста коллекции.
Методы предобработки целиком всей коллекции, которые мы используем сейчас, для этого не годятся.
Надо уменьшать показатель степени в законе Хипса, описывающем рост числа энграмм по мере роста коллекции.
Рецепт тот же, что при разреживании матрицы Фи: когда статистики накапливается достаточно, чтобы понять, что энграмма или битерм не является тематичным, он удаляется из словаря. За новичками придётся следить дольше, но когда станет ясно, что редкий токен не полезен ни для одной темы, его опять-таки придётся удалить.

Готов ли BigARTM к добавлениям и удалениям новых токенов в различных модальностях?
Готов ли он к периодическим проверкам словаря с помощью критериев тематичности и полезности токенов?

AnyaP · 2016-11-11T20:56:42Z

Несмотря на то, что тикет присвоен Артему, здесь работы хватит на всех, давайте обсуждать, кто какой кусочек готов на себя взять!

ofrei added the Strategy label Sep 26, 2016

ofrei mentioned this issue Sep 26, 2016

Переход от плотной Фи к разреженной #37

Open

AnyaP assigned arti32lehtonen Nov 11, 2016

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Динамическое пополнение и отсев словарей энграмм #38

Динамическое пополнение и отсев словарей энграмм #38

ofrei commented Sep 26, 2016

AnyaP commented Nov 11, 2016

Динамическое пополнение и отсев словарей энграмм #38

Динамическое пополнение и отсев словарей энграмм #38

Comments

ofrei commented Sep 26, 2016

AnyaP commented Nov 11, 2016