You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
В динамически растущей коллекции по мере прихода новых батчей могут появляться новые слова и энграммы (эта проблема вроде давно решена).
Хотелось бы решать задачу отбора энграмм и битермов по мере роста коллекции.
Методы предобработки целиком всей коллекции, которые мы используем сейчас, для этого не годятся.
Надо уменьшать показатель степени в законе Хипса, описывающем рост числа энграмм по мере роста коллекции.
Рецепт тот же, что при разреживании матрицы Фи: когда статистики накапливается достаточно, чтобы понять, что энграмма или битерм не является тематичным, он удаляется из словаря. За новичками придётся следить дольше, но когда станет ясно, что редкий токен не полезен ни для одной темы, его опять-таки придётся удалить.
Готов ли BigARTM к добавлениям и удалениям новых токенов в различных модальностях? Готов ли он к периодическим проверкам словаря с помощью критериев тематичности и полезности токенов?
The text was updated successfully, but these errors were encountered:
В динамически растущей коллекции по мере прихода новых батчей могут появляться новые слова и энграммы (эта проблема вроде давно решена).
Хотелось бы решать задачу отбора энграмм и битермов по мере роста коллекции.
Методы предобработки целиком всей коллекции, которые мы используем сейчас, для этого не годятся.
Надо уменьшать показатель степени в законе Хипса, описывающем рост числа энграмм по мере роста коллекции.
Рецепт тот же, что при разреживании матрицы Фи: когда статистики накапливается достаточно, чтобы понять, что энграмма или битерм не является тематичным, он удаляется из словаря. За новичками придётся следить дольше, но когда станет ясно, что редкий токен не полезен ни для одной темы, его опять-таки придётся удалить.
Готов ли BigARTM к добавлениям и удалениям новых токенов в различных модальностях?
Готов ли он к периодическим проверкам словаря с помощью критериев тематичности и полезности токенов?
The text was updated successfully, but these errors were encountered: