Вероятностная интерпретация радиальной базисной функции - DataScientist
1 голос
/ 11 января 2019

Мне было интересно, может ли кто-нибудь конкретизировать вероятностную интерпретацию использования радиальной базисной функции для вычисления вероятности между наблюдением и некоторым эталонным значением.

Мой вопрос частично мотивирован ответом сверху этой темы Reddit :

Ядро RBF является стандартной функцией ядра в $R^n$ пространстве, потому что оно имеет только один свободный параметр, $\gamma$, и удовлетворяет условию $K(x,x') = K(x',x)$. Более конкретно, Один из способов представить ядро ​​RBF состоит в том, что если предположить, что $x'$ характеристика некоторого гауссова распределения (это среднее значение это распределение), то $RBF(x,x')$ является вероятностью того, что $x$ другой образец из этого распределения. В этой интерпретации $\gamma$ связано с настраиваемой дисперсией этого распределения.

Означает ли это, что если у нас есть наблюдение $\bf{s}$, и мы хотим знать, генерируется ли $\bf{s}$ источником $\bf{q}$, если $\bf{s}$ является шумной версией $\bf{q}$, то мы можем сказать:

$$P(\mathbf{s} \text{ generated by } \mathbf{q}) \propto \text{exp}(-\gamma d(\mathbf{s},\mathbf{q}))$$ $$P(\text{belongs to a Gaussian region defined by } \mathbf{q} | \mathbf{s}) \approx \text{exp}(-\gamma d(\mathbf{s},\mathbf{q}))$$

где $d(\mathbf{s},\mathbf{q})$ - расстояние между $\bf{s}$ и $\bf{q}$ и $\gamma$, как описано в приведенной выше цитате.

Это все кажется последовательным? Что эта вероятность является прямым следствием того, что RBF сравнивает наблюдение с некоторым средним значением (или эталонным значением, или исходным значением)?

Любые ссылки / ссылки на учебники приветствуются.

1 Ответ

3 голосов
/ 13 января 2019

ядро ​​RBF

Ядро радиальной базисной функции (RBF):

$$k(x, x'; \sigma^2) = \exp \Big( -\frac{\|x-x'\|^2}{2 \sigma^2} \Big)$$

, где параметр $\sigma^2$ указывает ширину. Эта формулировка эквивалентна той, которую вы написали с параметром точности $\gamma$, если мы позволим $\gamma = \frac{1}{2 \sigma^2}$.

Изотропное распределение Гаусса

Теперь рассмотрим $d$ -мерное распределение Гаусса со средним $\mu$ и ковариационной матрицей $\sigma^2 I$ (где $I$ - единичная матрица). Это означает, что дисперсия одинакова ($\sigma^2$) во всех направлениях. Функция плотности вероятности:

$$\mathcal{N}(x \mid \mu, \sigma^2 I) = (2 \pi \sigma^2) ^{-\frac{d}{2}} \exp \Big( -\frac{\|x-\mu\|^2}{2 \sigma^2} \Big)$$

Их отношения

Обратите внимание, что $k(x, x'; \sigma^2) = k(x', x; \sigma^2)$ пропорционально $\mathcal{N}(x \mid x', \sigma^2 I) = \mathcal{N}(x' \mid x, \sigma^2 I)$. То есть значение ядра RBF, оцененное между $x$ и $x'$ (с шириной $\sigma^2$), пропорционально плотности вероятности, присвоенной $x$ при изотропном гауссовском распределении со средним $x'$ и дисперсией $\sigma^2$. Или, что эквивалентно, плотности вероятности, присвоенной $x'$, когда среднее значение равно $x$.

Следующие значения не true:

$$P(\mathbf{s} \text{ generated by } \mathbf{q}) \propto \text{exp}(-\gamma d(\mathbf{s},\mathbf{q}))$$

Как указано выше, правильным членом на левой стороне будет плотность вероятности, присвоенная $s$ гауссовым распределением со средним значением $q$ и дисперсией $\frac{1}{2\gamma}$. Это не то же самое, что вероятность того, что $s$ генерируется этим распределением (более подробно об этой точке см. Различие между вероятностью и вероятностью). Точно так же следующее утверждение в цитате reddit неверно по той же причине: «если мы предположим, что $x'$ характерно для некоторого гауссовского распределения (это среднее значение этого распределения), то $RBF(x,x')$ - это вероятность того, что $x$ это еще один пример из этого дистрибутива. "

$$P(\text{belongs to a Gaussian region defined by } \mathbf{q} | \mathbf{s}) \approx \text{exp}(-\gamma d(\mathbf{s},\mathbf{q}))$$

Нет такого понятия, как «гауссовский регион». Скорее, мы имеем гауссово распределение вероятностей (которое фактически имеет бесконечную поддержку, а не определено в компактной области). И ядро ​​RBF пропорционально функции плотности, но «пропорционально» не означает «примерно равно» (числовая разница может быть довольно большой, в зависимости от значения нормализующей постоянной $(2 \pi \sigma^2)^{-\frac{d}{2}}$.

...