多模态能力再升级 阿里国际发布最新开源多模态模型Ovis (多模态理解)

看一眼菜品图就知道怎么做、能给植物看病、能把手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!今天,阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。

多模态大模型能够处理和理解多种不同类型的数据输入,例如文本、图像。与大型语言模型(LLMs)相比,大语言模型在处理和生成文本数据方面有专长,而多模态大模型能够处理非文本数据,如图像等等。

根据多模态权威综合评测平台OpenCompass的数据,Ovis1.6-Gemma2-9B在30B参数以下的模型中取得了综合排名第一,赶超MiniCPM-V-2.6等行业优秀大模型。

阿里国际发布最新开源多模态模型Ovis,多模态能力再升级

图:Ovis在OpenCompass上的测评数据情况

据介绍,Ovis能够在数学推理问答、物体识别、文本提取和复杂任务决策等方面展现出色表现。例如,Ovis可以准确回答数学问题,识别花的品种,支持多种语言的文本提取,甚至可以识别手写字体和复杂的数学公式。

阿里国际发布最新开源多模态模型Ovis,多模态能力再升级

案例1:Ovis对手写文案的识别及翻译能力

阿里国际发布最新开源多模态模型Ovis,多模态能力再升级

案例2:Ovis对复杂数学公式的处理能力

阿里国际发布最新开源多模态模型Ovis,多模态能力再升级

案例3:Ovis通过对图片的识别处理能够给出菜谱

具体来说,Ovis模型有五大优点:

1、创新架构设计:可学习的视觉嵌入词表:首次引入,将连续的视觉特征转换为概率化的视觉token,再经由视觉嵌入词表加权生成结构化的视觉嵌入,克服了大部分MLLM中MLP连接器架构的局限性,大幅提升多模态任务表现。

2、高分图像处理:动态子图方案:支持处理极端长宽比的图像,兼容高分辨率图像,展现出色的图像理解能力。

3、全面数据优化:多方向数据集覆盖:全面覆盖Caption、VQA、OCR、Table、Chart等各个多模态数据方向,显著提升多模态问答、指令跟随等任务表现。

4、卓越模型性能:Ovis展现出了优异的榜单表现。在多模态权威综合评测Opencompass上,Ovis1.6-Gemma2-9B在30B参数以下的模型中取得了综合排名第一,超过了Qwen2-VL-7B、MiniCPM-V-2.6等模型。尤其在数学问答等方向表现媲美70B参数模型;在幻觉等任务中,Ovis-1.6的幻觉现象和错误率显著低于同级别的模型,展现了更高的生成文本质量和准确性。

5、全部开源可商用:Ovis系列模型License采用 Apache 2.0。Ovis 1.0、1.5的数据、模型、训练和推理代码都已全部开源,可复现。Ovis1.6系列中的Ovis1.6-Gemma2-9B也已开源权重。

在AI领域,多模态大模型的应用场景非常广泛,包括但不限于自动驾驶、医疗诊断、视频内容理解、图像描述生成、视觉问答等。例如,在自动驾驶领域,多模态大模型可以整合来自摄像头、雷达和激光雷达的数据,以实现更精准的环境感知和决策。由于多模态大模型能够学习如何联合理解和生成跨多种模式的信息,也被视为朝向通用人工智能的下一个步骤。

根据此前媒体报道,阿里国际在去年成立了一支AI团队,目前已经在40多个电商场景里测试了AI能力,覆盖跨境电商全链路,包括商品图文、营销、搜索、广告投放、SEO、客服、退款、店铺装修等,其中多个应用场景均基于Ovis模型进行开发,已帮助50万中小商家、对1亿款商品进行了信息优化。据介绍,商家的AI需求不断增长,近半年的数据显示,平均每两个月,商家对于AI的调用量就翻1倍。

附相关链接:

论文arXiv:

Github:

Huggingface:

Demo:

版权文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/10ff32e0a1ca47445378.html
全局中部横幅
全局中部横幅
新不良人

4399新不良人安卓游戏为您提供新不良人游戏下载,新不良人安卓游戏攻略,新不良人安卓免费游戏,更多新不良人手机游戏下载尽在4399手机游戏。

找学校

找好学校就上求学指南(www.qiuxue360.com)专业的教育培训门户网站!汇集众多优秀会计培训学校、英语培训学校、建工培训学校、IT培训学校,口才培训学校等;帮助学员快速找到好学校!

旅游攻略网

旅游攻略网站提供丰富的旅游信息和攻略,包括景点介绍、住宿推荐、美食指南等,帮助旅行者更好地计划和享受旅行。网站内容实时更新,由专业旅游编辑团队撰写,适合各种旅游需求和预算。

北行软件库

北行软件库是一个提供海量手机应用/手机游戏免费下载的软件资源库。主要面向安卓手机/平板/其它智能设备用户,在这里能直接点击下载对应app的正版apk安装包,安全可靠;同时也为IOS用户附上苹果商店官方资源页。北行软件库每天录入最新最火软件应用/手机游戏,同时持续更新维护历史资源,确保用户长期获得良好下载体验

埃威姆

广州埃威姆音响公司致力于专业音响、会议音响系统、音响工程,秉承诚信、创新、共享的原则、优质的专业音响设备和一站式音视频设计解决方案完成了大量有影响力的音响工程联系热线:020-39218218

蓝鑫御应用

蓝鑫御网络科技有限公司提供优质的软件,方便用户的生活、工作。

湖北赛格尔市政工程有限公司

湖北赛格尔市政工程有限公司是建设部批准的房屋建筑施工总承包、市政工程施工总承包二级和建筑装饰装修工程专业承包二级资质企业。成立于2008年,具有土建施工、市政工程、设备安装、房地产开发、装饰装潢、钢结构等一系列综合生产能力的经营体系。

盐池县九道农业科技有限公司

盐池县九道农业科技有限公司,成立于2008年,注册资本800万元,是一家集滩羊养殖、收购、加工、储备、销售、推广、综合服务为一体化的农业企业。2021年8月在盐池县花马池镇北塘新村建设可存栏量5000只以上的盐池滩羊可视化生态智慧养殖牧场1座,现有滩羊存栏量1万只;公司计划筹建可储存1万吨盐池滩羊饲草料加工厂1座;可存栏量5000只以上的盐池滩羊可视化生态智慧养殖牧场7座;可日加工20吨盐池滩羊精深加工厂1座,截止到2021年10月,公司总资产3500万,销售收入9100余万元,其中信息化建设资金投入约1050万元。

商河招聘网

商河在线招聘平台,汇聚了大量兼职|保安|司机等岗位信息,为您提供临时工|事业单位等多元化招聘需求。商河招聘网人才市场动态一手掌握,找工作|求职信息尽在掌握,济南商河地区招聘首选平台,助您快速找到理想工作!

尾气净化

河北汉蓝环境科技有限,电话:0311-83655680、83655628公司提发电机组尾气净化,柴油机黑烟净化器,叉车尾气净化器,矿山机械尾气处理,分布式能源站SCR脱硝,船舶脱硫脱硝,锅(窑)炉脱硫脱硝

智慧景区

杭州沪马智能科技有限公司-以技术为核心的全系智能物联产品提供商和行业解决方案服务商


全局底部横幅