DeepSeek (deepseek是什么)

昨日 1 月20 号，DeepSeek 团队推出了全新开源模型 DeepSeek-R1，一夜之间模型就在 Github 上收获了 4k+star，引爆大模型领域。

而这次的 R1 模型一出，不仅反驳了之前蒸馏 OpenAI o1 的说法，官方更是直接下场表示： “我们可以和开源版的 o1 打成平手”。

DeepSeek-R1 最新发布，剑指 OpenAI o1

值得一提的是， R1 突破了以往的模型训练形式，完全没有使用任何 SFT 数据，仅通过纯粹的 RL 来训练模型，这一点说明 R1 已经学会了自己思考问题——这实则更符合人类的思维规则。

DeepSeek-R1 最新发布，剑指 OpenAI o1

更有网友称其为“开源的 LLM 界 AlphaGo”。

DeepSeek-R1 最新发布，剑指 OpenAI o1

OpenAI，你的“强”来了

叫板 o1，Deepseek 的自信并不是空穴来风。

先是在在后训练阶段凭借凭借有限的数据直接在模型推理能力方面把 o1 甩了几条街。

DeepSeek-R1 最新发布，剑指 OpenAI o1

并且在数学、代码、自然语言推理上更是和 o1 正式版不相上下，在多个基准测试中展现了卓越的性能。

例如 DeepSeek - R1 在 AIME 2024 数学竞赛中，取得了79.8%的成绩，略高于 OpenAI 的 o1-1217。在 MATH-500 测试中，DeepSeek-R1 更是达到了 97.3% 的高分，与 OpenAI-o1-1217 相当，同时显著优于其他模型。

在编程竞赛方面，DeepSeek-R1 表现出了专家级水平，其在 Codeforces 上的 Elo 评级达到了 2029，超过了 96.3% 的人类参赛者。此外，在工程相关任务中，DeepSeek-R1 的表现也略胜 OpenAI-o1-1217 一筹。

DeepSeek-R1 最新发布，剑指 OpenAI o1

除此之外，团队还 R1 蒸馏出了 6 个小模型开源给社区，参数从小到大分别为 1.5B、7B、8B、14B、32B 以及 70B。其中蒸馏过的 R1 32B 和 70B 模型在性能方面不仅超过了 gpt-4o、Claude 3.5 Sonnet 和 QwQ-32B，甚至比肩 o1-mini 的效果。

DeepSeek-R1 最新发布，剑指 OpenAI o1

如果你仍未真切领略到它的强大，那么请注意：它只需付出 o1 五十分之一的成本，却能收获 o1 百分之百的效能。

典型的花小钱，办大事。

DeepSeek-R1 最新发布，剑指 OpenAI o1

除了 R1 在几乎所有的基准测试中性能都优于 o1 的硬实力，再其发布即开源的训练数据集和优化工具，让不少网友直呼：这才是真正的 Open AI。

三点核心技术，剑指 o1

R1 发布后，国内外大模型从业者纷纷围观、并交流点评。

深度赋智 CEO 吴承霖向 AI 科技评论评价： DeepSeek R1 确实厉害，但方法非常简单，核心其实就三点。

Self play、Grpo 以及 Cold start。

DeepSeek 团队这次开源的 R1 模型共有两个版本，分别是 DeepSeek-R1-Zero 和 DeepSeek-R1，参数都是 660B 且功能各有千秋。

先说 DeepSeek-R1-Zero，这个模型完全没有使用任何 SFT 数据，仅通过纯粹的 RL 来训练模型，突破了以往模型在提升推理能力时常依赖于 SFT 作为预训练步骤的形式。这是大模型训练中首次跳过监督微调，是此次DeepSeek的核心创新。

通俗一点讲，就是我们不直接告诉模型“应该如何解题”，而是让它通过自主试错并从中学习正确的方法，即 Self play。这就像不让孩子死记硬背公式，而是直接提供题目和评分标准，让他们在实践中自行摸索解法。这样的方式不仅能激发模型的自主学习能力，还可能在探索过程中发现更具创新性的思路。

DeepSeek-R1 最新发布，剑指 OpenAI o1

但是DeepSeek-R1-Zero这个孩子一直做试错练习的话，就会有可读性差和语言混合问题。于是团队研发推出了 DeepSeek-R1，这个模型在训练过程中引入了少量的冷启动数据，即cold-start> DeepSeek-R1 最新发布，剑指 OpenAI o1

这么说吧，虽然孩子做错题集可以有效提高分数，但是他的答案可能写得乱七八糟。通过先教模型如何规范地写步骤和总结，再让它自由发挥，最终答案既正确又容易看懂。

除此之外，DeepSeek-R1 Zero还创新了一种很厉害的算法 GRPO，通过采样一组输出并计算奖励的均值和标准差来生成优势函数，从而优化策略。这种方法避免了传统 PPO 中需要额外训练价值模型的高成本，让模型能够自主探索复杂的推理行为，比如长思维链、自我验证和反思。

这种纯强化学习训练方式在数学（AIME 2024 的 Pass@1 从 15.6% 提升至 71.0%）和代码任务中取得了显著提升。简单来说，就像让机器人通过“试错”学习解题，而不是依赖例题，最终让它学会了复杂的解题步骤，表现非常出色。

DeepSeek-R1 最新发布，剑指 OpenAI o1

最后，团队还分享了他们在实验中遇到的很多失败尝试，并表示虽然在过程奖励模型以及蒙特卡洛树搜索算法上团队都没有取得研究进展，但这并不意味着这些方法无法开发出有效的推理模型。

DeepSeek-R1 最新发布，剑指 OpenAI o1

One more thing

值得一提的是， R1 在训练时甚至还出现了“顿悟时刻”，就像我们在解难题时突然“灵光一闪”，模型在训练过程中也自发地学会了“回头检查步骤”。这种能力并非程序员直接教授，而是在算法通过奖励正确答案的机制下，自然涌现的。

DeepSeek-R1 最新发布，剑指 OpenAI o1

原创文章，未经授权禁止转载。详情见转载须知。

DeepSeek-R1 最新发布，剑指 OpenAI o1

谷普下载提醒您

本文链接：http://www.gpxz.com/article/9e0cc1965f58bcab85fa.html

上一篇：比亚迪举办2025首届王朝盛典聚焦用户与品牌

下一篇：阶跃星辰再拿多模态榜首全方位升级发布六款

【北京天气预报】北京天气预报一周

北京天气预报，及时准确发布中央气象台天气信息，便捷查询北京今日天气，北京周末天气，北京一周天气预报，北京蓝天预报，北京天气预报，北京40日天气预报，还提供北京的生活指数、健康指数、交通指数、旅游指数，及时发布北京气象预警信号、各类气象资讯。

新闻资讯 2024-07-18 16:39:45

戚风蛋糕怎么做

戚风蛋糕的做法,戚风蛋糕怎么做请看步骤：1.戚风蛋糕6个鸡蛋配方，其他步骤一样，六个鸡蛋发的更高6个鸡蛋低粉102蛋黄用糖30g油48g牛奶48g蛋清用糖50g2.准备材料，将蛋黄蛋白分离3.将蛋黄打散均匀，不要打发...

电影视频 2024-01-14 18:46:26

陕西达克罗表面喷涂

陕西达克罗表面处理就找咸阳固丰成，我公司专注于陕西达克罗表面喷涂,陕西达克罗表面处理,陕西达克罗螺栓加工,陕西金属表面处理领域,资金实力雄厚,人员配置合理,生产设备齐全,主要承接达克罗加工业务,并开展达克罗技术咨询服务,通过多年的努力,本公司达克罗技术已广泛用于汽车配件,风电螺栓,桥梁,电力设备,售后服务均得到广大用户的高度认可.

商业服务 2024-08-18 01:17:26

观后感文章分享

烽火影视fenghuo.tv提供电影、电视剧剧情介绍和演员表。烽火影视每天更新好看的电视剧，综艺真人秀，明星信息与相关电影电视剧，同时提供电影演员表、电视剧演员表，角色等相关内容。

电影视频 2024-11-13 08:32:54

泰州翻译公司

泰州大邦国际翻译有限公司致力于成为泰州最好的翻译公司,地址：泰州市东风南路168号

外语翻译 2024-11-13 14:03:20

标准电压互感器

互感器现场测试设备|电子式互感器测试仪|二次压降及负荷测试仪|电容式电压互感器现场校验仪|电压互感器现场测试仪

综合门户 2024-11-13 17:49:16

山东冶金技师学院

山东冶金技师学院（山东冶金中等专业学校）是山东省人民政府批准设立的，隶属于中国冶金地质系统的一所全日制学校。现设有普通中专、三二连读大专及技工教育三个办学层次，是国家级重点中等专业学校、国家级重点技工院校。

学校大学 2024-11-13 21:11:10

钢带液位计

磁翻板液位计厂家_磁翻板液位计_射频导纳物位计-北京英泰德科技有限责任公司专业从事”磁翻板液位计厂家,磁翻板液位计,射频导纳物位计“产品研究和生产的现代化企业,公司具有良好的生产设备和技术,产品有磁翻板液位计厂家,磁翻板液位计,射频导纳物位计等，产品适用于多个领域，欢迎来电咨询!

管理咨询 2024-11-17 02:14:25

世纪利德

电影视频 2024-11-17 06:40:16

天津氟膜新材料有限公司

电影视频 2024-11-17 19:51:29

35企业邮箱

35企业邮箱是国内优秀的云办公邮件系统，无限空间、超大附件、提供强大的邮件实时推送、微信收发等服务，还拥有多重加密、自摧毁、存证等邮件安全服务，免费咨询电话：400-885-0035

互联资讯 2025-02-06 16:21:22

Micrel

Micrel公司是电源管理IC供应商,寻找Micrel公司授权Micrel代理商,采购Micrel公司芯片半导体中国最大的Micrel代理商,寻求Micrel公司技术支持,Micrel中文名称是麦瑞半导体.

管理咨询 2025-02-08 03:03:18

98 OPPO或推出英寸的高端电视产品

随着科技的不断发展提高，科技带来的好处已经渗透进了人们日常生活中的方方面面，就拿家里基本上都会摆放一台的电视机来说，就有从黑白电视到彩色电视的转变，而这几年更是出现了智能电视，大大提高了用户们的观影体验，就在近日，知名博主@番茄殿下就爆料称红米将推出98英寸的超大智能电视，而OPPO则不甘示弱，迅速跟进，也将推出98英寸的高端电视产品...。

2025-02-02 18:51:24

谷歌恐将错失可穿戴的霸主地位 (谷歌出现错误请重试)

最近国外媒体爆出了HTC首款可穿戴设备的消息，但出人意料的是这款形似手表的产品，运行着HTC自家的RTOS操作系统，在智能手机上开了安卓先河的HTC，在可穿戴领域却没有青睐于AndroidWear，虽然MOTO360早已让人们看到AndroidWear的强大，虽然索尼、LG、华硕等都已推出了基于AndroidWear的智能手表，但是三...。

2024-12-09 19:40:29

护栏条款芯片法案美商务部公布执行细则再提打压中国 (护栏执行标准)

昨日，美国商务部公布了其，芯片法案，500亿美元拨款计划的细则，根据美国商务部官网信息，拨款计划被称为，CHIPSforAmerica，，由美国国家标准与技术研究所负责实施，目的是振兴美国国内半导体行业并刺激创新，同时在全美各地创造高薪工作岗位，于昨日发布的战略文件显示，这一计划包括四个主要目标，在美国建立和扩大先进制程半导体的生产；...。

2024-12-09 14:08:15

广告联盟导航与广告联盟评测网站有何区别 (广告联盟导航官网)

广告联盟导航与广告联盟评测网站的区别随着互联网广告行业的迅速发展，越来越多的广告联盟进入市场，给站长和广告主提供了丰富的选择，然而，面对众多广告联盟，站长和广告主往往难以迅速找到最适合自己的平台，为了解决这一问题，许多网站应运而生，其中，广告联盟导航，和，广告联盟评测网站，是两种常见类型，尽管这两类网站都旨在帮助用户选择合适的广告联盟...。

2024-12-05 21:11:14

小米高管回应属实；高合汽车拖欠货款被供应商断供部分门店撤店；哪吒汽车两位高管被免丨雷峰早报公司被一锅端某厂水军供应商被抓 (小米高管回应卫生巾)

要闻提示1.高合汽车拖欠货款被供应商断供，部分门店撤店，内部人士，没有网上传闻那么严重2.年度销量不及目标一半，哪吒汽车两位营销总裁被免职，张勇兼任亲手抓营销3.3万元格力空调没人买，格力门店回应，东西是好的，就是卖得不好4.某厂水军供应商被抓，公司被一锅端，小米高管回应属实5.TikTok商店将在美上调佣金并削减部分补贴，将美国电商...。

2024-12-03 15:38:56

给创业者小微企业主和个体户十大忠告

在当前形式下，给创业者、小微企业主和个体户十大忠告，1、未来短则3，5年，长则8，10年，经济形式不会有好转，重复三遍，不会有，不会有，不会有，2、保生存，保生存，再保生存，不要天天把谋发展挂在嘴上，不要心存幻想，3、任何新项目，一定要做好调研，同行调研，市场调研，客户调研，没有充足的调研和验证，一分钱也不要投进去，4、垫款的生意不要...。

2024-11-15 22:51:04

拜登宣布电视讲话降落政治的温度呐喊美国 (拜登发表电视讲话)

[全球网报道]美国有线电视资讯网最新信息，美国总统拜登外地期间14日在白宫椭圆形办公室就特朗普被枪击事情宣布全国讲话，拜登在讲话中对美国民众称，，今晚我想和你们谈谈，咱们须要降落政治的温度，并记住，当咱们有不赞同见时，咱们不是死敌，咱们是街坊，咱们是好友，共事，公民，最关键的是，咱们是美国同胞，咱们必定站在一同，拜登在讲话中还称，，...。

2024-07-15 18:17:54

港澳非中国籍终身性居民可申办交往中原通行证今起 (港澳非中国籍永久居民)

记者从中国出出境治理局了解到，从当天，10日，起，港澳终身性居民中的非中国籍人员可申办交往中原通行证，这局部人员交往中原将愈加高效方便，为进一步便利港澳终身性居民交往中原，依据规则，从7月10日起，港澳终身性居民中的非中国籍人员可被迫申办港澳居民交往中原通行证，持证人在口岸实行指纹采集等手续后，可以经快捷通道通关，...。

2024-07-10 18:47:31

广州标致505的广标引见 (广州标致505)

作为国际最早的合资公司.广州标记给人留下了太多的回想.但最大的回想就要算这款车了.广标505中国市场里惟一失败了的车.过后的505可以说是风景有限，法国人把他们最好的车拿了上来.其优异的性能，奢侈的装备，动感的外型.让国人第一次性领略到了什么是奢侈车，前面又投产了游览款.能轻松装8团体四处跑.一辆9年的505游览款，能够已每小时200...。

2024-07-07 15:53:55

外货大拜年过年啦！带上外货回家啦！

过年啦！你家的年货预备好了吗，穿上新中式穿搭逛个街，带上老字号特产拜个年，拿出最新款国产手机合个影，坐上国产大飞机回家去！龙年春节，外货掀起新浪潮！监制丨刘鑫席罗曦制片人丨温露王宇王率编导丨黄思源王艳歌记者丨黄思源谢琳尧遥周恬早阳周志岳刘帆林铭浩梁洋蔡一飞王胜东张景陈宝善孙冰林丽丽冯雪戴威朱子荣黎冠强王晶磊于晨李大杰温超李扬郭升剪辑丨...。

2024-07-04 01:32:06

渤海证券大智慧-渤海证券大智慧下载v8.32专业版

渤海证券大智慧,渤海证券大智慧是一套用来进行证券行情显示、行情分析、外汇及期货信息，并同时进行信息即时接收的超级证券信息平台,完美下载为您准备了“渤海证券大智慧”，欢迎大家前来下载使用

2023-10-18 01:46:19

固态硬盘性能测试(ASSSDBenchmark)下载v2.0.6821.41776中文绿色版-asssdbenchmark汉化版

固态硬盘性能测试(ASSSDBenchmark),ASSSDBenchmark为一款固态硬盘性能的测试软体。此软体可以测出固态硬盘持续读写等的性能，让您只要使用此软体来测试就可以评估这颗固态硬盘的效能好与不好,您可以免费下载。

2023-08-11 17:16:50

文章推荐

大局要变天直播行业新规范 (改变大局)

1直播新规范，大局要变天近日，国家广播电视总局在其官网悄然发布了一则通知，通知全称为，国家广播电视总局关于加强网络秀场直播和电商直播管理的通知，，发布主体为——网络视听节目管理司，其中需要特别注意的是这则通知矛头不仅仅指向，秀场直播，，还有电商直播，其中影响最明显也最关乎商家直接利益的是第八条，关于直播的实名认证问题，大家都清楚，之前...。

2025-01-28 23:42:24

好文分享

机器学习是有局限的已经分化了 Judea 图灵奖得主 AI Pearl

2017年12月，贝叶斯网络之父、2011年图灵奖的获得者JudeaPearl教授在NIPS2017大会期间进行了一场学术报告，结果这场报告因为一张照片而在网络上引起热议，很多人在社交媒体上表示，JudeaPearl对着一个，几乎空无一人的房间，作报告是NIPS上悲惨的一幕，这一天对于机器学习而言是悲惨的一天，不过，对于现年81岁的J...。

2024-12-09 14:59:50

资讯动态

如何开育婴用品店 (如何开育婴用品店赚钱)

创业就要选择有前景的行业，母婴行业一直被誉为21世纪的朝阳产业之一，因此成为了不少创业者看中并选择智慧之选的对象，在婴儿潮的迅猛攻势之下，母婴市场的消费人群数量急剧增加，开一家育婴用品店成了非常好的选择，那么，如何开育婴用品店呢，如何开育婴用品店，育婴用品店的开设对于有一定行业经验的人来说，不是什么难题，但是若我们以往没有开店创业过，...。

2024-12-02 20:58:43

创业加盟

P1固件1.2.5 坚果最新发布 (pcap01固件)

发表在投影固件2018，7，212，35坚果最新发布P1固件1.2.5下载地址，链接，http，pan.baidu.com，s，1geVg0HP密码，此处内容被隐藏，回复本帖后可见更新内容，1.优化隐藏wifi支持；2.优化音量调节；3.修改低电量关机时间提示为60秒；4.优化快捷菜单；5.增加自定义主题功能；6.增加开机启动服务...。

2024-11-28 16:35:11

网络百科