贝叶斯统计

贝叶斯统计 #

Date: 2015/6/12

在统计门派中,有着频率学派(frequentist)和贝叶斯学派(bayesian)之分,其最主要的区别在于:频率学派认为未知量是确定的,而贝叶斯学派认为未知量是随机值。more

机器学习的基础算法几乎都是建立在频率学派的认知上的,因为$P(y|x;\theta)$中,$\theta$是未知、待学习的。但我们都认为,它是可以学习出唯一解的,所以在写的时候,都使用分号分隔随机变量与$\theta$。而贝叶斯统计中认为,$\theta$是满足某个分布的随机变量,因而可以使用分布对其进行研究,这里,显然,$\theta$应该使用逗号分隔。

贝叶斯统计中常常提到先验概率与后验概率,其实是对贝叶斯公式正正反反的应用。简单来说,假设因出现的随机事件为x,果出现的随机事件为y,那么,通常情况下,我们会检验:$P(y|x)$,这表示,如果我们做了x,那么发生y的概率是多少。由于Bayes定理的提出,我们可以算出,若y事情已经发生了,那么x事情也发生的概率是多少?这使用Bayes公式可以进行简单计算:

$$
P(y|x) = \frac{P(x|y)P(y)}{P(x)}
$$

从对上述两类问题的描述可以清楚的看到,一类问题是先因后果,另一个是先果后因,自然的就被称作先验概率和后验概率了。

在机器学习中,使用贝叶斯统计对数据进行分析,也是使用上述经典公式。我们计算$P(\theta)$与$S = {x^{(i)},y^{(i)}}$的概率关系$P(\theta|S)$,利用Bayes公式,可得出计算法则。假定$\theta ~ \mu(\delta,\tau^2I)$,那么$\tau$越接近0,曲线越平滑,因而通常情况下,贝叶斯统计比最大似然估计更容易避免过拟合。

$\theta$的计算由下式得出:
$$
\mathop{min}\limits_{\theta}\sum_{i}{||y^{(i)}-\theta^Tx^{(i)}||^2+\lambda||\theta||^2}
$$

但是由于该式子计算太过复杂,通常情况下,我们使用一个近似公式实现,称作$\theta$的最大后验估计:
$$
\theta_{MAP} = \mathop{arg max}{\theta}\prod{i=1}^{m}{p(y^{(i)}|x^{(i)},\theta)p(\theta)}
$$
该式除了最后的$P(\theta)$外,与最大似然估计一样:
$$
\theta_{ML} = \mathop{arg max}{\theta}\prod{i=1}^{m}{p(y^{(i)}|x^{(i)},\theta)}
$$
有了上述式子,我们应该如何对y作预测呢?对于新到的样本,使用参数$\theta$的后验分布,计算标签集y的后验分布$p(y|x,S)$,再求出给定x下y的期望,就得出结果了。 Categories: 概率论