通义千问推出最强视觉理解模型Qwen2 (通义千问推出了什么)

文章编号:39753 资讯动态 2024-12-03 大模型 阿里云 通义千问

8月30日,阿里通义千问发布第二代视觉语言模型Qwen2-VL,旗舰模型 Qwen2-VL-72B的API已上线阿里云百炼平台。Qwen2-VL在多个权威测评中刷新了多模态模型的最佳成绩,在部分指标上甚至超越了 GPT-4o 和 Claude3.5-SONnet 等闭源模型。

2023年8月,通义千问开源第一代视觉语言理解模型Qwen-VL,成为开源社区最受欢迎的多模态模型之一。短短一年内,模型下载量突破1000万次。目前,多模态模型在手机、车端等各类视觉识别场景的落地正在加速,开发者和应用企业也格外关注Qwen-VL的升级迭代。

通义千问推出最强视觉理解模型Qwen2-VL-72B,已上线阿里云

相比上代模型,Qwen2-VL的基础性能全面提升。可以读懂不同分辨率和不同长宽比的图片,在MathVista、DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现;可以理解20分钟以上长视频,支持基于视频的问答、对话和内容创作等应用;具备强大的视觉智能体能力,可自主操作手机和机器人,借助复杂推理和决策的能力,Qwen2-VL 可以集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作;能理解图像视频中的多语言文本,包括中文、英文,大多数欧洲语言,日语、韩语、阿拉伯语、越南语等。

通义千问团队从六个方面评估了模型能力,包括综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景问答、视频理解、Agent 能力。Qwen2-VL-72B 在大部分的指标上都达到了最优,甚至超过了 GPT-4o 和 Claude3.5-Sonnet 等闭源模型,在文档理解方面优势尤其明显,仅在综合的大学题目方面与 GPT-4o 存在差距。

用户可通过阿里云百炼平台调用Qwen2-VL-72B的API,地址:

版权文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/ab9f5825900f4986a82b.html
全局中部横幅
全局中部横幅
湖南汇百侍生物科技有限公司

汇百试剂平台产品数量达上万种生物试剂,拥有核心技术和核心产品,主要产品:IPTG、DTT、X-GAL、ONPG、PNPG、TRIS、TAPS、MOPS、MOPS-Na、CAPS、TAPS、ABTS、TMB、PMSF等,为用户解决化学原料问题。

KUHUSOFT

KuhuSoft酷虎成立于2007年10月,在繁华大都市上海成立,公司旨在为广大用户提供专业的互联网技术服务与视觉文化服务.

云播

云播每天搜集互联网最新电影和电视剧,为广大用户免费提供无广告在线观看电影和电视剧服务,及时收录最新、最热、最全的电影大片,高清正版免费看。

济南大合伟业化工有限公司

二甲基亚砜DMSO|氯化亚砜|二甲基乙酰胺DMAC|甲胺醇溶液三乙胺--济南大合伟业化工有限公司

重庆汇聚教学设备有限公司

汇聚教育装备集团旗下聚宝教学设备有限公司始创于1998年,是一家专注于教育信息化装备、智慧教学设备、智慧教学仪器、智能教学家具研发、制造、销售、服务于一体的高新技术企业。

用友YonSuite

用友YonSuite聚焦中型、成长型企业,提供“营销、供应链、制造、采购、财务、税务、金融、人力、协同、平台、项目”一体化服务。作为向成长型企业的商业创新平台,YonSuite基于“6+5+3+N”为企业提供SaaS全场景服务,满足企业的全价值链的管理需求

雷视一体机

苏州雷森电子科技有限公司致力于研发世界领先的雷达技术及物联网传感器解决方案,雷视一体,交通雷达,路侧感知,雷视一体机,毫米波雷达,车路协同,80GHz频段,24GHz频段为城市及国家的运营和安全提供坚实的保障。

新东福龙金属磨料(青岛)有限公司

钢丝切丸,不锈钢切丸、锌丝切丸、铝丝切丸

伊课网校

伊课网校是一家提供在线教育网校系统和教育软件的供应商,旨在提供标准化和定制化的网校系统。产品包括多种网校搭建方案和线上直播课堂教学功能,提供专业的在线教育网校解决方案,涵盖网校管理、数据统计、招生获客、考试测评、教学教务等各个方面。

三五互联官网

三五互联是创于1996年的老牌云计算服务商,福建首家创业板上市公司。专业提供企业邮箱、云服务器、域名注册、网站建设等服务,50余万个虚拟主机网站及1000余万个域名用户的共同选择!免费备案,7x24小时服务,助企业无忧上云。

全局底部横幅