深度学习中的平滑近似

深度学习中的平滑近似

在读了校友王峰的一些文章后，发现从优化角度来理解一些常见的Loss，会比较有意思，在此列一下几个有意思的关联。

一个比较有意思的东西：MF-BPR的公式是。其中，

展开后可得：

与原始softplus相反，这个取的是。所以BPR本质上也是用了relu的变体作为了目标函数。当正样本大于负样本时，不作改变，当正样本小于负样本时，给予较大的梯度。

softmax的目标是要让向量的目标位置的预测结果最大化，。或者说，