IDEA研究院发布DINO (idea研究院)

文章编号:36030 资讯动态 2024-11-30 具身智能 视觉大模型 IDEA大会

计算机视觉技术在真实世界的应用场景十分广泛。然而,过去主流的小模型方案,难以应对碎片化、多变的长尾需求,限制了技术落地规模。

源自自然语言研究的Transformer架构诞生后,视觉模型与之结合,走上一条“从小变大,从N变1”之路。自2022年起,IDEA团队从目标检测出发,打造精准度、通用性、泛化能力兼优的DINO系列视觉大模型。

11月22日,IDEA大会在深举办,在本次大会上,IDEA研究院发布了该系列最新的DINO-X通用视觉大模型,拥有真正的物体级别理解能力,实现开放世界(Open-world)目标检测。无需用户提示,直接检测万物。

与此同时,IDEA团队还推出行业平台架构,通过一个大模型基座,结合通用识别技术结合,让模型不需重新训练,就可边用边学,支撑多种多样的B端应用需求。

万物识别:无须指引,罕物尽览

全面检测:DINO-X在物体检测领域树立新标杆,无需任何提示,即可识别几乎所有物体,并给出其类别,包括罕见的长尾物体(出现频率低但种类繁多的物体)。

IDEA研究院发布DINO-X目标检测视觉大模型

在零样本评估设置中,DINO-XPro在业界公认的LVIS-minival数据集上取得了59.7%的AP,遥遥领先于其它现有算法。在LVIS-val数据集上,DINO-X Pro也表现亮眼,取得了52.4%的AP。具体到LVIS-minival数据集上的各个长尾类别评估中,DINO-X Pro在稀有类别上取得了63.3%的AP(比Grounding DINO 1.5 Pro还要高出7.2%),在常见类别上取得了61.7%的AP,在频繁类别上取得了57.5%的AP。DINO-X称得上目前业界检测最全的通用视觉模型。

泛化和通用性:得益于超过1亿高质量样本的大规模数据集多样化训练,DINO-X对未知场景和新物体具有更强的适应性。这意味着在面对未见过的物体或环境时,模型仍能保持高水平的检测性能。这种超强的泛化能力,使其在实际应用中更加灵活。

多任务感知与理解:DINO-X整合了多个感知头,支持包括分割、姿态估计、区域描述和基于区域的问答在内的多种区域级别任务,让感知到理解逐步成为了现实。

长尾目标检测优化:为了支持长尾目标的检测任务,DINO-X不仅支持文本提示和视觉提示,还支持经过视觉提示优化的自定义提示。

开放世界:服务丰富场景,迈向具身智能

DINO-X的万物识别能力,让其拥有了对开放世界(Open World)的视觉感知,轻松应对真实世界中的众多不确定性和开放环境,赋能具身智能、大规模多模态数据的自动标注、视障人士服务等高难度场景。

对具身智能而言,开发环境感知和理解是核心能力,这其中的视觉感知更是机器和物理世界交互的基础。近期,聚焦人居环境具身智能核心技术攻关的福田实验室正式挂牌,该实验室正式由IDEA研究院与腾讯合作组建,致力于打造最前沿的具身智能创新平台。

多模态模型通常需要处理大量的图片并生成图文对,而仅依靠人工标注的方式不仅耗时、成本高,而且在面对海量数据时难以保障标注的一致性和效率。DINO-X的万物识别能力,可以帮助标注公司快速完成大批量的高质量图像标注或者为标注员提供自动化的辅助结果,从而降低手工标注的工作量。

视障人士独立性和生活质量的提升对信息获取与感知等方面有着极高的要求,DINO-X的万物识别能力恰逢其时地为助盲工具开发带来福音,为视障人士的未来生活带来美好希望。

在自动驾驶、智能安防、工业检测等领域,DINO-X也将发挥关键作用。其卓越的通用检测能力,使得系统能够应对各种复杂场景,识别出传统模型难以检测的物体,为产业升级和社会发展注入新的活力。

IDEA研究院发布DINO-X目标检测视觉大模型

Dino-X基座大模型零样本检测能力,为广大中小企业客户提供便捷高效的计数和标注工具

IDEA研究院一系列视觉大模型,包括DINO-X,为解决业务场景现存的小模型繁多、维护迭代成本高昂、准确率不足等问题,提供了可行的方案。IDEA研究院与多家企业联合开展视觉大模型及应用场景的探索研究工作,在视觉大模型的落地方面取得了实质性进展。

一方面,有别于市场上的以语言为基础的多模态大模型基于全图理解的方法,通过在物体级别的理解上加入语言模块优化大模型幻觉问题。另一方面结合自研的“视觉提示优化”方法,无需更改模型结构,不用重新训练模型,实现小样本下的场景化定制。 IDEA研究院发布DINO-X目标检测视觉大模型

IDEA研究院通用视觉大模型行业平台架构

从DINO到DINO-X,IDEA研究院始终站在视觉感知技术的前沿。通过对开放世界的探索和对具身智能的赋能,DINO-X的卓越性能和通用检测能力更加凸显。

值得一提的是,IDEA研究院也开放了DINO-XAPI:

有关DINO-X 的技术细节,请参考同期发布的论文。

► 论文链接:

雷峰网原创文章,未经授权禁止转载。详情见 转载须知 。

IDEA研究院发布DINO-X目标检测视觉大模型


本文地址: https://www.gpxz.com/article/43883a9ff64bc4f124db.html
全局中部横幅
全局中部横幅
神州租车

神州租车,亚洲租车大品牌,全国千家网点,100+车型任选,无限里程,100%保障,还免预授权免违章押金;智能取还,随需而用,7*24小时客户服务。TEL:400-616-6666

66影视网

66影视网每天搜集最新电影。为使用迅雷软件的用户提供最新的电影下载,电视剧下载,高清电影下载等服务。

周末酒店

提供各大城市周边适合周末度假的酒店和民宿信息,帮助你快速发现并预订周边有特色、好口碑、价格优惠的酒店,享受惬意周 末生活。

自动化设计

苏州择智工业设计有限公司专业提供自动化设计,工业产品动画设计,企业宣传片制作,产品外观设计,工业产品设计,数字动画制作等服务。咨询电话:18963671901.

上海家具租赁

上海家具租赁篷房搭建租赁服务公司电话13818073616:一手资源,价格美丽,桌子上海家具出租、上海篷椅子赁、上海大蓬租赁、上海雨棚租借、上海遮阳棚搭建、上海婚宴篷椅子赁服务公司。

透底价

对接淘宝、京东和拼多多……大牌网购平台承保!尽情选购,只付底价!

画明环境官网

画明环境:固废处置、产品销毁一站式服务平台。业务范围:一般固废,工业固废,危险废物处置;不合格产品,过期食品,化妆品,护肤品销毁,电子产品销毁,服装销毁,文件销毁等;垃圾处理,厨余垃圾处理,污泥回收等业务。

一门打包

一门打包(www.yimenapp.net)云端一键网页打包APP平台,提供APP打包,苹果打包APP,安卓打包APP,苹果APP打包,安卓APP打包,网页打包APP,H5打包APP,html打包APP,H5混合APP开发服务。

勾股CMS

勾股CMS是一套基于ThinkPHP6+Layui+MySql打造的轻量级、高性能快速建站的开源内容管理系统,后台管理模块,操作简单,通用型的后台权限管理框架,干净不臃肿、极易上手、开箱即用。

宁波和谐信息科技有限公司

Copyright©2014-2024宁波和谐信息科技有限公司版权所有

隔震支座

河北派伦建筑设计有限公司主要从事各种类型建筑隔震支座的生产,我们的支座产品主要是通过减震材料的消能作用,降低结构在地震作用下的加速度反应。其作用是承受操作振动和地震、台风等极端天气下的振动载荷,保证建筑稳定与安全。

硬度计,里氏硬度计,布氏硬度计,高强螺栓检测仪,平板导热仪,专业无损检测仪器商

北京时代新天测控技术有限公司是专业的硬度计,里氏硬度计,布氏硬度计,高强螺栓检测仪,平板导热仪,专业无损检测仪器商-北京时代新天测控技术有限公司供应商,主营产品有:硬度计,里氏硬度计,布氏硬度计,高强螺栓检测仪,平板导热仪,专业无损检测仪器商-北京时代新天测控技术有限公司等,北京时代新天测控技术有限公司不仅具有专业的技术水平,更有良好的售后服务和优质的解决方案,欢迎来电洽谈


全局底部横幅