为什么深度学习是非参数的

文章编号:43430 资讯动态 2024-12-09 深度神经 机器学习 深度学习

为什么深度学习是非参数的?

今天我想要与大家分享的是深度神经网络的工作方式,以及深度神经与“传统”机器学习模型的不同之处。我的计划具体如下:



正式设置一个机器学习问题
为了有些趣味,让我们先设置一个问题。
首先从数据开始。假设我们标记了数据,即是满足,分布的输入数据(比如图片)和标签。
我们想要“训练”的是某些函数:↦,或者说是更普遍地估计条件分布(∣)。我们的候选函数来自于参数集F={∣∈Θ},在这里代表参数。
为了达成目标,我们设定了损失函数(或风险函数),从概念上讲,我们希望将预期损失 为什么深度学习是非参数的?
第一次尝试通常是将经验风险或者经验损失 为什么深度学习是非参数的? 最小化。如果我们的损失函数是负对数似然,将 为什么深度学习是非参数的? 最最小化就意味着计算最大相似估计。

对偏差-方差分解和偏差-方差平衡的简单介绍

对于最小二乘损失=(()−)(最基本的回归估计量)来说,把预期损失分解成几个部分是很容易的。其诀窍在于,我们需要意识到我们的训练数据本身是一个从n次乘积分布 为什么深度学习是非参数的? 中采得的随机变量,且我们训练的模型 f依赖于 D,记作 为什么深度学习是非参数的? 为什么深度学习是非参数的? 并利用(,)和D的独立性,我们可以将预测的期望平方误差分解为:
为什么深度学习是非参数的?
最后一项噪音并不依赖于我们的模型。
现在为了得到我们预测的良好的预期平方误差,我们必须注意到模型输出的偏差(第一项)和方差(第二项)的和很小。注意这里所有的项都是非负的。
针对二元分类器的预期精度,其实存在着类似但更复杂的分解,但其他损失函数通常很难分解,尽管我们可以想象那样的模型选择的工作也是类似的。
因为让偏差/方差等于0或非常接近0都相对容易,这样分解会让我们在偏差和方差间做出权衡:通过使用D中每个数据点的样本均值作为估计,偏差可以非常小,且能巧妙地给出正则性论证来假设函数是Lipschitz函数或至少是一致连续。这就是极端的过拟合。通过预测不依赖于D的函数,比如 为什么深度学习是非参数的? ,我们可以让方差为0,这样则是极端的欠拟合。
请注意,均方误差的偏差-方差分解是一个根据数学定理(或至少一个引理)成立的方程,所以是普遍适用的,不需要任何条件。




从僵化中解脱出来,带来自由的结构
从某种程度上说,从上述极端情况转向更温和的条件也表明了我们在实践中可以做些什么。
一种方法是,以一组非常严格的函数作为候选函数,然后有意义地扩大候选函数的空间,以获得(假设是嵌套的)序列F0⊂F1⊂…. 关键想法是,进一步研究可以让模型更好地适应数据,而我们则须知道何时停止这种深入。Vapnik和Chervonenkis 的结构风险最小化原理就是这么做的,尽管该原理没有使用偏差-方差分解,而是使用了预期损失(风险)与D上的观察损失(经验风险)的边界,和一个依赖于训练数据集大小和函数集 为什么深度学习是非参数的? 的大小或其VC维的项。此处的典型情况是,一个人想要≥VC-dim个样本,却可能有≤20VC-dim个样本。但请注意,这里参数的数量不是标准的一部分(但可能会影响VC维)。
最后,传统标准比如赤池信息量准则尝试告诉你应该“投资”多少参数来达到低的负对数可能性。但是Bishop在其引言中发现,这些方法并不是很有效。
经典的非参数估计从另一个极端开始。如果我们取某个函数空间,如在 为什么深度学习是非参数的? 里有弱导数的索伯列夫函数空间 为什么深度学习是非参数的? (无论采用何种测度,是x的分布抑或是包含输入的 为什么深度学习是非参数的? 的勒贝格测度),我们可以匹配任意有限样本D上每一点的样本均值,从而可以获得0点态偏差, 但是最小化经验风险是病态的,有无限多的解。
接下来要做的就是正则化。最著名的例子可能是增加一个规范项从而导致Tikhonov正则化,所以我们的损失看起来会是这样
为什么深度学习是非参数的?
如果我们从偏差-方差的角度来看,我们能够平衡偏差(当→0没有偏差,但会导致病态)与方差(当→∞,我们处于 为什么深度学习是非参数的? 。我们并不想让方差为0,因为我们的正则化项仅仅是一个半范数)。当然了,Grace Wahba有关正则化回归的研究尤其与保持偏差-方差间的良好平衡相关,特别是与如何寻找到一个合适的值相关。
为什么深度学习是非参数的? 为什么深度学习是非参数的? 为什么深度学习是非参数的? 为什么深度学习是非参数的? 中将经验最小二乘损失(第一项) 最小化,就可以将前一节中的ansatz函数与嵌套空间Fi联系起来。因此来自递增权重序列 为什么深度学习是非参数的? 为什么深度学习是非参数的? 就给到了我们嵌套的Ansatz空间。
许多流行的正则回归方法(例如Lasso)适合这种类型的框架。
让我们讲回VC 界,正式一点以便增强直觉。关键的概率界限是为了准确性(或者说0-1的风险)
为什么深度学习是非参数的?
我们来分析一下。外面部分称“概率大于等于1−η”(我们还得更精确一点),此处我们觉得概率η太小了,这意味着我们所有的只是一个概率界限,而不是一个“几乎肯定”的保证。
内部的部分基本上是说,在全概率分布上的精度非常接近于在训练集上的精度,也就是说在N变得非常大的时候,我们有一个差值趋于零的精确边界。
从表面上看,这告诉了我们关于风险或准确性的信息,但是关于 模型 又说明了什么呢? 在我看来,关键的信息是,我们的模型是如此严格,以至于我们可以看到测试集上发生的一切(或者更精确地说,在完整的,分布上发生的一切)已经在训练集中发生了。
在贝叶斯环境下,正则化可以被解释为最大后验(MAP)估计,或者——如果我们经历了定义先验的麻烦——我们也可以对所有f∈F的估计进行积分。




这告诉了我们深度学习的什么?
当我们将Model.parameters()(这里我用的是PyTorch)传递给优化器时,深度学习看起来好像是参数化的。但其实它不是!
看起来这种正则化方法正是深度学习运作的理论框架——有时人们对此知之甚少。我们的模型足够大,从“道德上看来”足以成为非参数,尽管我们还没有完全理解,但我们所做的大多数事情(比如augmentation, norm layers和 dropout)其实都是正则化。
这也是M. Belkin等人所写的《协调现代机器学习实践和偏差-方差权衡》(Reconciling modern machine learning practice and the bias-variance trade-off)的主题和他们早期研究的主题,即泛化性能的关键是 由某个特定函数空间范数衡量的函数的规律性或平滑性。
我们有必要仔细看看M. Belkin等人(我认为这是首次)对双下降现象的描述:
为什么深度学习是非参数的?
对于双重下降现象的普遍理解似乎都是基于P. Nakkiran等人的文章:《双重下降》(Deep Double Descent),这证明了这篇论文的优秀,也证明了OpenAI能够将这些选题推介给更广泛的受众。他们用更真实的网络进行了系统的实验(M. Belkin等人则引用了更浅层的网络)。对我来说,一个重要的结论是,双重下降现象在标签损坏的两种实验条件中存在“凹凸”,他们的报告称,在标签干净的实验中,所得到的结果则要平缓得多,没有那么“凹凸”。
他们给出了一张图,这张图显示了对于固定次数的epoch,用损坏标签将一个修改过的ResNet18训练成CIFAR10这个过程中的测试错误。修改是指信道数量降到原数量的k分之一(k在64到1这个范围)(意思是他们会从原ResNet18的64分之一开始做实验,逐渐增加,最后达到原数量)。标签损坏发生在数据集中(在某一次epoch,而不是每个epoch中),15%的标签被切换到一个随机错误的类。这被解释为一种概略的误设。
为什么深度学习是非参数的?




VC理论对于用噪声标签拟合模型有什么启示?
通过上面的讨论,我们了解到当一个模型处于VC界有用的限定条件中(比如当小模型处于“传统”条件中),如果训练数据D来自与原始数据相同的分布,,测试集的测试精度(很可能)接近训练精度。换句话说,这个条件意味着我们假设,有相同的损坏程度(和损坏种类)。但这意味着如果模型学习了,且学会了不被损坏的训练数据分散太多注意力,也就是说, 在训练数据上,正确标签会挤出损坏标签。




特征和学习
让对深度学习的直觉化变得困难的原因之一是Ansatz领域的自适应特性。我这么说的意思是,我们没有一个固定的特征提取器(由手动构造,并由核机中使用的核家族给出)将学习应用到特征上。通常,我们将最后一层的输入视为特征(通过word2vet式损失、原型网络、基准无监督学习等方式学习的向量表示方法),或者我们可能在MLP分类器头之前的卷积层末尾分割卷积网络。
传统的做法是将学习后的分类器放在固定的特征提取器上,E. Hoffer等人的想法却相反,他们甚至建议对分类器进行固定,即只对特征提取器进行训练。
因此,我们可能会试图通过假装提取特征来简化我们的直觉。在P. Nakkiran等人的标题图片实验中,当使用t-SNE等降维机制将通过无噪声数据学习到的特征可视化时,添加标签噪声相当于在每个类对应的点的blob上添加噪声。考虑到这一点,我们可以进行一个类似的实验,这个实验甚至比M. Belkin等人的人工数据实验更简单,那就是:理解深度学习。




对标签噪声、容量、双下降和实验测试误差的直觉
为什么深度学习是非参数的?
撇开统计数据不谈:下文推测了一些可能发生的情况,通过想象我们可以在原型网络中得到与P. Nakkiran等人图中所描述的相同的现象,且容量由我们所能拥有的原型数量来表示:
这对偏差-方差分解意味着什么? 回想一下,分解在空间上是逐点的,并像之前一样要对各种训练数据集进行方差和偏差处理。假设你只有两个类,那么预测和标签要么是0要么是1。接下来原型收集已损坏的标签,就会产生偏差(因为你将以某种概率预测错误的事情)和方差(因为糟糕预测的区域取决于哪些标签已损坏,也就是取决于我们在哪个数据集D上绘制),并使错误预测的区域更小,从而减少方差和偏差。
在这种直觉中,早期停止的作用是检测模型何时开始收集已损坏的标签。
所以看起来现代神经网络本质上是非参数的,其工作方式依赖于各种正则化。为了使用M. Belkin等人的公式,我们希望更加了解,我们对于各种技术如何对某些函数空间范数作用的理解到了什么程度。似乎很难得出“传统”统计数据表明现代学习不起作用的结论。
Hastie等人的《高维无脊最小二乘插值中的惊喜》(Surprises in High-Dimensional Ridgeless Least Squares Interpolation)一文将最小二乘作为模型问题,提供了非常全面的分析,这也可能为深度学习现象提供直觉。

在插值条件中挤出错误标记的数据

我们可以做一个非常简单的插值条件的模拟。我们来思考一个由2d标准单位法线提取并沿着水平轴移动±2的点的二分类问题,并从每个类别的分配中抽取25%的点。
为了得到一个插值条件,我们使用一个具有明显峰值的核。为了有一个易分析处理的质量并将其标准化为1,我们使用核 为什么深度学习是非参数的?
这个核有单位质量,在x=0时趋于无穷,且从原点衰减:
为什么深度学习是非参数的?
这意味着,如果我们将每一类的密度表示为样本 为什么深度学习是非参数的?
为什么深度学习是非参数的?
假设不同类别的点不重合(几乎肯定如此),我们可以根据 为什么深度学习是非参数的? 更大的点对每个点进行分类,或者说,如果我们想通过标准化每个点的概率密度来获取概率
为什么深度学习是非参数的?
这给了我们一个插值解——在每个训练点,标签类有无限密度,所以它被归类为属于这个类。
那么标签错误发生了什么呢? 标签错误会导致损坏的训练点附近的某些区域被分配给错误的类。然而,附近正确类的点越多,错误分类的区域就越小。我们可以交互地尝试。随着点数的增加,测试误差会减少。
为什么深度学习是非参数的?
这意味着什么呢? 这说明对于插值解,在测试时间内,良好的训练点会挤出标记糟糕的点。
但是,随着数据的增加,当坏分类的区域和被随机抽样的数据点击中的概率减小时,随机抽样点到下一个坏样本的距离也减小了。这意味着除了利用模型的不良连续性(即输入的小变化会导致提取的特征发生大的变化),插值条件也能使对抗例子更容易产生,因为我们只需要特征的小变化。

特征噪声类似于标签噪声

但是,双重下降不是也发生在没有损坏标签的情况下吗? 我们“仅仅”需要格外小心地处理我们的训练数据吗?
好吧,没这么简单。高维特征在本质上可能比低维特征噪声更多:想象一下在高维空间(比如d)中有一个两类线性分类。我们有了有向量 为什么深度学习是非参数的? 为什么深度学习是非参数的? 为什么深度学习是非参数的? ,当⋅+≥0时,类为1;否则,类为0。如果我们预先知道输入是有界的,我们可以找到类原型 为什么深度学习是非参数的? 为什么深度学习是非参数的? 进行分类。但随后的线性分类器的−1维零空间(null-Space)中的向量,比如我们可以添加到输入中而不改变结果的向量空间 为什么深度学习是非参数的? ,可能对这个距离有很大帮助,从而使得 为什么深度学习是非参数的? 成为对更相关的投影距离 为什么深度学习是非参数的?
如果我们想保持在二维空间,我们可以放大噪声维度。这就将我们引入第二个实验。我们来绘制独立的随机二维点,其在“特征维度”中的标准偏差为0.5,在“噪声维度”中的标准偏差为5。这两个类用±1分开。我们使用EM算法来将每个维度的标准偏差为1的K高斯函数的混合值拟合到每个类中。通过比较两个拟合密度进行分类。我们使用5000个训练点和1000个测试点。
为什么深度学习是非参数的?
如果我们以不同的K值运行200次,并记录其准确性,我们可以看到双重下降中的凹凸:
为什么深度学习是非参数的?
关于这些实验的一个问题是:误差分布是倾斜的:我们得到的很多测试误差在2-3左右出现,可误差在10左右还出现了一个尾巴。这条差拟合的曲线尾部的质量随分量K的数量而变化,似乎是造成中间K的平均误差出现凹凸的主要原因。




结论
综上,我们学到了什么呢?
为什么深度学习是非参数的?

版权文章,未经授权禁止转载。详情见 转载须知 。

为什么深度学习是非参数的?


本文地址: https://www.gpxz.com/article/e00c320e18caf916507b.html
全局中部横幅
全局中部横幅
全国家政公司

免费家政公司加盟、月嫂公司加盟,开家政公司、家政公司怎么赚钱,找最好月嫂公司、找最好家政公司,聚政网入驻家政公司8万多家、客户找阿姨当天上户快。

足球小游戏,足球小游戏大全,4399足球小游戏全集,4399小游戏

4399足球小游戏大全收录了国内外足球类小游戏、实况足球小游戏、功夫足球小游戏、足球小游戏下载、最新足球小游戏。好玩就拉朋友们一起来玩吧!

餐饮品牌设计,餐饮品牌策划

疯狂食间,专注餐饮品牌创作的一群疯子、餐饮品牌设计公司,提供茶饮品牌设计,主题餐饮设计,主题餐厅设计,餐饮品牌策划设计,画册设计等;以专属形象定制作为餐饮品牌接入点,助力中国互联网+品牌时代,非常期待您的到来,服务热线:0755-23590995

三星电子

探索三星让您感受品位生活,在这里您可以找到GalaxyZFold6|ZFlip6,GalaxyS24Ultra,GalaxyS24|S24+,GalaxyTabS10系列,GalaxyWatchultra,GalaxyWatch7,三星W24|W24Flip,GalaxyBuds3Pro,GalaxyRing等新品,也可以浏览手机、电视、显示器、冰箱、洗衣机等三星官方产品内容,并获得相关产品服务与支持。

国际装饰网

国际装饰网成立以来始终坚持“企业好伙伴,百姓好帮手”的双向运营理念,不断创新,多方合作,全面宣传,全力打造装饰建材家居类行业网站的典范!

海外医疗推荐品牌

康必行海外医疗是医疗旅游领域更值得信赖的出国就医品牌,专注于全球医药大数据以及领先的疾病治疗方案的开发整合,重点业务:丙肝,吉三代,乙肝,TAF,肿瘤,靶向药,抗癌新药,厄达替尼,艾伏尼布,瑞维美尼,恩西地平,索托拉西布,阿达格拉西布,阿培利司,阿那莫林,西多福韦,佩米替尼,他替瑞林等疾病药品,已为数以万计的用户提供了最佳的治疗方案和新药查询,专业医学顾问7x24小时一对一的方式为客户提供免费专业的海外医疗服务。

广州大洋图文

广州大洋图文数码快印有限公司,专业提供一站式图文快印解决方案,拥有近20年经验的大型数码快印全国连锁品牌店.目前拥有80多家分店,店面遍布在广州,深圳,东莞等地.服务涵括:彩色数码印刷,黑白数码印刷,大幅面写真输出,工程图纸输出,文本装订,商务印刷,网络印刷,图文快印,数码快印,图文打印,数码直印,CAD晒图,CAD出图,CAD彩图,数码打样,大图复印,标书打印,工程图打印,菜谱印刷,服装吊牌印刷等,为用户提供24小时图文印刷及送货服务。

佳秦手游网

佳秦手游网为您提供丰富的安卓手机游戏下载和应用市场信息。无论是热门手游还是最新应用,您都能在这里找到。我们的手游排行榜和手机游戏大全将帮助您快速找到最适合的游戏,尽享游戏乐趣!

Monica

Monica是一款智能助手,具备强大的记忆功能,随时为你提供个性化的支持与建议。无论是日常生活还是工作学习,Monica都能成为你的贴心伙伴,帮助你更高效地完成每一件事。

UPhoto优拍云摄影

UPhoto优拍云摄影,免费好用的照片直播软件平台,图片直播云摄影软件,就找优拍云摄影!UPhoto让每个摄影师都能做图片直播,让更多人享受照片直播云摄影乐趣!

全局底部横幅