理论计算机科学家 Barak Boaz 深度学习并非 二者距离已越来越远 简单的统计 (理论计算机科学)
是对应的噪声,为简单起见使用了加性噪声,而
的经验风险最小。也就是说,我们使用优化算法来找到
是一个可选的规范化项 (试图使得
很小(这种预测是基于实验数据所在的总体数据来获得的)。
图注:Bradley Efron经过对噪音的观察所复现的牛顿第一定律漫画
来实现。F 的类越大,偏差越小,当
,偏差甚至可以是零。然而,当 F 类越大, 则需要越多样本来缩小其成员范围,从而算法输出模型中的方差就越大。总体泛化误差是偏差项和方差贡献的总和。
,其所需的数据点数量在某些参数 k 下以
的形式拓展。在这种情况下,需要大约 k 个样本来“起飞”,而一旦这样做,则会面临收益递减的制度,即假设花耗 n 个点来达到(比如)90%的准确度,那么想要将准确度提高到95%,则大约需要另外 3n 个点。一般来说,随着资源增加(无论是数据、模型的复杂性,还是计算),我们希望捕捉到更多更细的区别,而不是解锁新的质量上的能力。
图注:从IXL 网站学习特定数学技能的练习
是某个数据点(例如具体的图像)、
,这个函数的训练只使用数据点
而不使用标签,通过最小化某种类型的自监督损失函数。这种损失函数的例子是重建或画中画(从另一个输入 x 的某些部分恢复)或对比学习(找到
是同一个数据点的增量时,并列关系比两个随机点的并列关系要小得多)。
(其中 C 是类的数量),使交叉熵损失最小。最终的分类器得出了
图注:谷歌 PaLM 模型的数据集
,都可以将通过自监督训练的深度 d 模型的首 k 层数与监督模型的最后 d-k 层数“缝合”起来,并且使性能几乎保持原有水平。
版权文章,未经授权禁止转载。详情见 转载须知 。
本文地址: https://www.gpxz.com/article/7c8895da20fdb400997e.html
































