机器学习中常用概率分布模型

机器学习中常用概率分布模型 #

Date: 2015/6/12

高斯分布(Gaussian Distribution) #

高斯分布又称正态分布(Normal Distribution),是最为常见的分布模型。在变元较多的情况下,通常情况下都是服从高斯分布的。在一些没有特别特征的概率分析中,使用高斯分布没有人会说有问题。

高斯分布的公式为:$ f(x) = \frac{1}{\sqrt{2\pi}\delta}exp(-\frac{(x-\mu)^2}{2\delta^2}) $。其中有两个分布参数$\mu$(均值)与$\delta^2$(方差),决定了高斯分布的形状。

高斯分布为钟形,中间高,两边低。当$\delta^2$增大时,钟的高度降低。$\mu$决定了钟的中心位置。伯努力分布(Bernoulli Distribution)

伯努力分布比较简单,就是两个互斥事件(一个标记为0,一个标记为1)的分布,一个事件的发生机率为$p$的话,另一个的发生机率就为(1-p)。通常情况下定义:
$$
P(x=1) = p\
P(x=0) = 1-p\
P(x) = p^x(1-p)^{1-x}\
E(x) = P(x=1) = p
$$

二项分布(Binomial distribution) #

二项分布是从伯努力分布推出来的,伯努力进行一次的取值,二项分布是重复n次的伯努力分布。以抛硬币为例,扔一次的概率分布即为伯努力,扔n次的即为二项分布。所以其概率密度函数为:
$$
P(K=k) = \binom{n}{k}p^k(1-p)^{n-k}
$$
上式就是中学常见的二项式系数。多项分布(Multinomial Distribution)

多项分布是二项分布的一个扩展,也可以说二项分布是多项分布的特殊情况。上述取值只有0,1两种,而多项分布可以有k种互斥事件:(1,2,…k),如扔骰子的k为6。
多项分布是问:每次试验,执行事件的概率分别为$ p_1, p_2, …, p_k (\sum_{i=1}^k{p_i} = 1) $,重复执行n次试验,事件执行次数分别为$ x_1, x_2, …, x_k (\sum_{i=1}^k{x_i} = n) $的可能性。
其概率密度函数为:
$$
P(x_1, x_2, …, x_k; n, p_1, p_2, …, p_k) = \frac{x_1!…x_k!}{n!}p_1^{x_1}…p_k^{x_k}
$$

多项分布也是常见概率模型。Gamma函数 #

将阶乘在实数集上进行扩展,就得到了Gamma函数。
$$\Gamma(x) = \int_0^{\infty}t^{x-1}e^{-t}dt$$
通过分部积分的方法,可以推导出这个函数有如下的递归性质
$$\Gamma(x+1) = x \Gamma(x)$$
于是很容易证明,$\Gamma(x)$ 函数可以当成是阶乘在实数集上的延拓,具有如下性质
$$\Gamma(n) = (n-1)!$$
这里为什么用的是$(n-1)!$而不是$n!$?据说,是为了使Beta分布的形式更漂亮。
具体还有一些推导和扩展应用,我看的是 我爱自然语言处理的blog我爱自然语言处理的blog,讲得非常好。Beta分布

Beta分布有一个比较经典的故事,看了就大概懂了。 #

有一天你被魔鬼撒旦抓走了,撒旦说:”你们人类很聪明,而我是很仁慈的,和你玩一个游戏,赢了就可以走,否则把灵魂出卖给我。游戏的规则很简单,我有一个魔盒,上面有一个按钮,你每按一下按钮,就均匀的输出一个[0,1]之间的随机数,我现在按10下,我手上有10个数,你猜第7大的数是什么,偏离不超过0.01就算对。“ 你应该怎么猜呢?
从数学的角度抽象一下,上面这个游戏其实是在说随机变量$X_1,X_2,\cdots,X_n {\stackrel{\mathrm{iid}}{\sim}} Uniform(0,1)$,把这$n$ 个随机变量排序后得到顺序统计量 $X_{(1)},X_{(2)},\cdots, X_{(n)}$, 然后问 $X_{(k)}$ 的分布是什么。
Beta分布其实挺好算的,用到了一个$\Delta x$,假定$X_(k)$落到了$(x - \Delta x)$中,取$\Delta x$的极限,就可以得到结果了。
$$f(x) = \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1}$$
同样,在 我爱自然语言处理的blog我爱自然语言处理的blog中,也有大量的扩展介绍。Dirichlet分布

Beta分布的问题是,第k大的数是什么。如果同时问:第$k_1, k_2, …, k_l$大的数是什么,就从Beta分布转到了Dirichlet分布了。 Categories: 概率论, 机器学习