刷arxiv有哪些技巧 5个问题快速理解机器学习论文

文章编号:36848 资讯动态 2024-11-30 论文 arxiv

译者:AI研习社( 听风1996 )

双语原文链接: How to Understand ML Papers Quickly


我所指导的 ML学员 经常会问我一些不同的问题:"你如何从每天大量充斥在Arxiv网址上的出版资料中选择阅读哪些论文?"

阅读大多数ML论文的好处是,你只需提出五个简单的问题就能跨越(忽略)一些专业术语。当我浏览论文时,我会尽可能快地回答这些问题。

1)函数近似器的输入是什么? 如:一张224x224x3的RGB图像,其中单个物体大致位于视图中心。

2)函数近似器的输出是什么? 如:一个对应输入图像的类维度为1000的向量。

请借助与具体(论文中的)方法无关的方式考虑整个系统的输入和输出,可以让你从术语本身中脱身,并考虑其他领域是否已经开发出使用不同方法(算法)在这里可能会有效的方法。我发现这种方法在阅读 Meta-Learning论文 时非常有用。

通过首先将ML问题视为一组输入和期望的输出,可以推断输入是否足以预测输出。如果没有这种推断练习,你可能会意外得到一个ML问题,其中 输出不可能由输入决定 。结果可能会是一个ML系统 进行预测的方式是社会所认为有问题的方式 (译者注:这里可能是想表达不符合人类常识与逻辑的执行方式)。

3)什么样的损失在监督输出预测(译者注:关注损失函数)?这个目标函数在什么样的背景假设下设立的? ML模型是通过组合和而形成的。有时 偏差很强 ,有时偏差 很弱 。为了使模型具有更好的泛化能力,你需要添加更多的偏差或添加更多的无偏数据。 天下没有免费的午餐 。举一个例子:许多最优控制都会假设一个固定的数据偶发过程,这个过程就是马尔科夫决策过程(MDP)。在MDP中,"状态 "和 "决策"通过环境的动态转换来确定映射到 "下一个状态、奖励以及事件是否结束"。这种结构虽然很笼统,但也是可以用来构造一个损失,让学习Q值遵循方程。

4)一旦模型被训练后,对于以前没见过的输入/输出对,模型能够泛化到什么程度? 归功于所捕获的数据信息或模型架构,ML系统可能会相当好地泛化到它以前从未见过的输入。近年来,我们 看到越来越多 和 更高等次的泛化能力 ,所以在阅读论文时,我注意观察那些在论文中惊人的泛化能力以及它的泛化能力来自哪里(数据、偏差或两者都有)。

对于这个领域来说,更好的归纳偏差意味着存在更多的噪音,例如因果推理或符号方法或以对象为中心的表示。这些是构建稳健可靠的ML系统的重要工具,我发现将结构化数据与模型偏差分开的界限可能是模糊的。话虽如此,但让我感到困惑的是,有许多的研究人员认为推动ML前进的方式是学习量(译者注:训练轮次)并编写硬编码的量。

我们之所以进行ML研究,恰恰是因为有些东西我们不知道如何编写硬编码。作为机器的研究者,我们应该把工作重点放在 改进学习方法 上,把编写硬编码和符号方法留给那些研究的研究者。

5)论文中的说法是否可以证伪?

那些声称不能证伪的论文是不属于科学范畴的。


AI研习社是AI学术青年和AI开发者技术交流的在线社区。我们与高校、学术机构和产业界合作,通过提供学习、实战和求职服务,为AI学术青年和开发者的交流互助和职业发展打造一站式平台,致力成为中国最大的科技创新人才聚集地。

如果,你也是位热爱分享的AI爱好者。欢迎与 译站 一起,学习新知,分享成长。

刷arxiv有哪些技巧?5个问题快速理解机器论文

版权文章,未经授权禁止转载。详情见 转载须知 。

刷arxiv有哪些技巧?5个问题快速理解机器论文


本文地址: http://www.gpxz.com/article/01369675d80b49d1d1cf.html
全局中部横幅
友太安保险经纪有限公司

友太安保险经纪以多年技术沉淀和遍布全国的服务网络,为企业提供保险方案定制、询价和招标、风险管理培训、出险索赔等在内的一站式、专业化保险服务,协助企业持续提升风险管理能力,保障可持续发展的经营目标,是真正值得客户信赖保险经纪服务供应商!

学习资料网

学习资料网是一个集中提供大学、高中、四级、日语、英语等学习资料的绿色免费网站,方便用户获取各种学习资源。

重庆市公共资源交易网

重庆市公共资源交易中心是按照国务院整合建立统一的公共资源交易平台决策部署和《重庆市整合建立统一的公共资源交易平台实施方案》,经重庆市委、市政府批准,依托重庆联合产权交易所集团,剥离市土地和矿业权交易中心、市工程建设招标投标交易中心的交易服务职能,与市国有资产产权交易中心、市政府采购交易中心、市机电设备招投标交易中心业务整合,组建而成的公共资源专业化市场化配置平台。

全自动吹瓶机

台州市黄岩森宝机械有限公司坐落中国模具机械之乡,拥有20年以上自动吹瓶机生产经验,专业从事全自动吹瓶机研发生产的企业,SE系列全自动吹瓶机可生产10ML到20L不同形状的PET材质的瓶、桶、罐,可满足矿泉水、碳酸饮料、果汁、食用油等领域的吹瓶需求。

杭州中央空调

杭州实诺暖通工程有限公司,专业从事中央空调设计、销售、安装、维修、保养、移机、改造服务,为您提供一站式暖通解决方案,免费提供现场勘查、方案设计和报价,欢迎致电0571-82535674或18067936162添加微信snnt-zmx。主要代理销售格力、美的、天加中央空调,专注于中央空调暖通机电领域,为您的办公室、酒店、商铺、厂房车间等场所提供专业、优质、快捷的暖通安装、改造服务。

边缘网关

内蒙古德明电子科技有限公司(简称“德明电子”)是2016年成立一个专业从事专业从事“物联网传感器·模组、智能传感器”研发、生产、销售于一体,并为客户提供传感技术全套产品解决方案。客户需求持续创新,在物联网传感器、物联网模块、边缘网关、工业数据采集记录仪、物联网传感器、智慧城市、温控系统和云计算等几大领域都有行业应用。

一门封装

一门封装(www.yimenapp.cn)云端一键网页封装APP平台,提供APP封装,苹果app封装,安卓app封装,IOS封装app,网页封装APP,网站封装APP,H5封装APP,H5混合APP开发服务。

腾游网

腾游网,为您提供优质实用美文!包含日记、实用文、总结、计划、祝福语、句子、职场文档等,为您写作提供指导和优质素材

一站式汇率换算网

汇率网为您提供最新、最准确的货币汇率查询服务。我们24小时不间断更新,让您随时掌握市场脉搏,轻松进行汇率换算和追踪。无论是个人旅行还是企业金融决策,全球实时汇率网都是...

DeepSeek

深度求索(DeepSeek),成立于2023年,专注于研究世界领先的通用人工智能底层模型与技术,挑战人工智能前沿性难题。基于自研训练框架、自建智算集群和万卡算力等资源,深度求索团队仅用半年时间便已发布并开源多个百亿级参数大模型,如DeepSeek-LLM通用大语言模型、DeepSeek-Coder代码大模型,并在2024年1月率先开源国内首个MoE大模型(DeepSeek-MoE),各大模型在公开评测榜单及真实样本外的泛化效果均有超越同级别模型的出色表现。和DeepSeekAI对话,轻松接入API。

gm1
gm1

Gm1.Com传奇风云榜,推荐真正的传奇私服品牌大服,GM玩家自由交流,敞开心扉畅所欲言,这里也有最精彩的传奇私服直播,玩传奇,新开传奇就上传奇风云榜!


全局底部横幅