机器学习中常用概率分布模型 #
Date: 2015/6/12
高斯分布(Gaussian Distribution) #
高斯分布又称正态分布(Normal Distribution),是最为常见的分布模型。在变元较多的情况下,通常情况下都是服从高斯分布的。在一些没有特别特征的概率分析中,使用高斯分布没有人会说有问题。
高斯分布的公式为:f(x)=1√2πδexp(−(x−μ)22δ2)。其中有两个分布参数μ(均值)与δ2(方差),决定了高斯分布的形状。
高斯分布为钟形,中间高,两边低。当δ2增大时,钟的高度降低。μ决定了钟的中心位置。伯努力分布(Bernoulli Distribution)
伯努力分布比较简单,就是两个互斥事件(一个标记为0,一个标记为1)的分布,一个事件的发生机率为p的话,另一个的发生机率就为(1-p)。通常情况下定义:
P(x=1)=p P(x=0)=1−p P(x)=px(1−p)1−x E(x)=P(x=1)=p
二项分布(Binomial distribution) #
二项分布是从伯努力分布推出来的,伯努力进行一次的取值,二项分布是重复n次的伯努力分布。以抛硬币为例,扔一次的概率分布即为伯努力,扔n次的即为二项分布。所以其概率密度函数为:
P(K=k)=(nk)pk(1−p)n−k
上式就是中学常见的二项式系数。多项分布(Multinomial Distribution)
多项分布是二项分布的一个扩展,也可以说二项分布是多项分布的特殊情况。上述取值只有0,1两种,而多项分布可以有k种互斥事件:(1,2,…k),如扔骰子的k为6。
多项分布是问:每次试验,执行事件的概率分别为p1,p2,…,pk(∑ki=1pi=1),重复执行n次试验,事件执行次数分别为x1,x2,…,xk(∑ki=1xi=n)的可能性。
其概率密度函数为:
P(x1,x2,…,xk;n,p1,p2,…,pk)=x1!…xk!n!px11…pxkk
多项分布也是常见概率模型。Gamma函数 #
将阶乘在实数集上进行扩展,就得到了Gamma函数。
Γ(x)=∫∞0tx−1e−tdt
通过分部积分的方法,可以推导出这个函数有如下的递归性质
Γ(x+1)=xΓ(x)
于是很容易证明,Γ(x) 函数可以当成是阶乘在实数集上的延拓,具有如下性质
Γ(n)=(n−1)!
这里为什么用的是(n−1)!而不是n!?据说,是为了使Beta分布的形式更漂亮。
具体还有一些推导和扩展应用,我看的是 我爱自然语言处理的blog我爱自然语言处理的blog,讲得非常好。Beta分布
Beta分布有一个比较经典的故事,看了就大概懂了。 #
有一天你被魔鬼撒旦抓走了,撒旦说:”你们人类很聪明,而我是很仁慈的,和你玩一个游戏,赢了就可以走,否则把灵魂出卖给我。游戏的规则很简单,我有一个魔盒,上面有一个按钮,你每按一下按钮,就均匀的输出一个[0,1]之间的随机数,我现在按10下,我手上有10个数,你猜第7大的数是什么,偏离不超过0.01就算对。“ 你应该怎么猜呢?
从数学的角度抽象一下,上面这个游戏其实是在说随机变量X1,X2,⋯,Xniid∼Uniform(0,1),把这n 个随机变量排序后得到顺序统计量 X(1),X(2),⋯,X(n), 然后问 X(k) 的分布是什么。
Beta分布其实挺好算的,用到了一个Δx,假定X(k)落到了(x−Δx)中,取Δx的极限,就可以得到结果了。
f(x)=Γ(α+β)Γ(α)Γ(β)xα−1(1−x)β−1
同样,在 我爱自然语言处理的blog我爱自然语言处理的blog中,也有大量的扩展介绍。Dirichlet分布
Beta分布的问题是,第k大的数是什么。如果同时问:第k1,k2,…,kl大的数是什么,就从Beta分布转到了Dirichlet分布了。 Categories: 概率论, 机器学习