贝叶斯统计

贝叶斯统计 #

Date: 2015/6/12

在统计门派中,有着频率学派(frequentist)和贝叶斯学派(bayesian)之分,其最主要的区别在于:频率学派认为未知量是确定的,而贝叶斯学派认为未知量是随机值。more

机器学习的基础算法几乎都是建立在频率学派的认知上的,因为P(y|x;θ)中,θ是未知、待学习的。但我们都认为,它是可以学习出唯一解的,所以在写的时候,都使用分号分隔随机变量与θ。而贝叶斯统计中认为,θ是满足某个分布的随机变量,因而可以使用分布对其进行研究,这里,显然,θ应该使用逗号分隔。

贝叶斯统计中常常提到先验概率与后验概率,其实是对贝叶斯公式正正反反的应用。简单来说,假设因出现的随机事件为x,果出现的随机事件为y,那么,通常情况下,我们会检验:P(y|x),这表示,如果我们做了x,那么发生y的概率是多少。由于Bayes定理的提出,我们可以算出,若y事情已经发生了,那么x事情也发生的概率是多少?这使用Bayes公式可以进行简单计算:

P(y|x)=P(x|y)P(y)P(x)

从对上述两类问题的描述可以清楚的看到,一类问题是先因后果,另一个是先果后因,自然的就被称作先验概率和后验概率了。

在机器学习中,使用贝叶斯统计对数据进行分析,也是使用上述经典公式。我们计算P(θ)S=x(i),y(i)的概率关系P(θ|S),利用Bayes公式,可得出计算法则。假定θ μ(δ,τ2I),那么τ越接近0,曲线越平滑,因而通常情况下,贝叶斯统计比最大似然估计更容易避免过拟合。

θ的计算由下式得出:
minθi||y(i)θTx(i)||2+λ||θ||2

但是由于该式子计算太过复杂,通常情况下,我们使用一个近似公式实现,称作θ的最大后验估计:
$$
\theta_{MAP} = \mathop{arg max}{\theta}\prod{i=1}^{m}{p(y^{(i)}|x^{(i)},\theta)p(\theta)}
$P(θ)$


\theta_{ML} = \mathop{arg max}{\theta}\prod{i=1}^{m}{p(y^{(i)}|x^{(i)},\theta)}
$$
有了上述式子,我们应该如何对y作预测呢?对于新到的样本,使用参数θ的后验分布,计算标签集y的后验分布p(y|x,S),再求出给定x下y的期望,就得出结果了。 Categories: 概率论