Вычисление расхождения KL для распределений по множествам - DataScientist
Винтажный Клуб для гитаристов
0 голосов
/

У меня есть распределение по набору (сотен) отдельных терминов, и я хотел бы описать разницу между

. Я вижу несколько вариантов, и ни один из них не кажется действительно привлекательным:

  1. Возьмем дивергенцию KL, где распределение определяется по мощности набора терминов. С сотнями терминов это невозможно в вычислительном отношении, и распределение будет иметь много нулей, требующих некоторого большого количества сглаживания.

  2. Возьмите сумму расхождений KL предельного распределениякаждый семестрЭто предполагает уровень независимости, которого нет в данных.

  3. Факторизация или кластеризация целевого и базового распределений в более низкие измерения и принятие KL плотного представления более низкого измерения.

Есть ли здесь стандартная техника?

Добро пожаловать на сайт DataScientist, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...