人工智能如何为盲人转述Facebook上的照片 (人工智能如何影响我们的生活)

说起人工智能(AI),尽管很容易又让人想起 它的威胁,但是该技术确实能够在很多方面让我们的生活变得更美好。AI算法是为了帮助我们与朋友联系、查找信息,甚至带我们感知物理世界。

国外媒体报道,Facebook即将发布一款新型屏幕阅读工具,能对图片上的内容进行自动描述,从而让盲人或视觉障碍患者“看到”图片。 据悉,用户在ios设备上使用这款屏幕阅读器时,该工具可对照片进行自动文本处理,从而让用户听到照片上的内容描述,如“有三个人,面带微笑,站在户外”等。

为了提高AI的文本识别准确度,开发者对算法模型基于100种不同类型的对象进行了集中训练,所以目前该算法仅能够识别人类、披萨、棒球等等。随着研究地不断推进,算法的识别将能够越来越广泛和复杂。

视觉障碍人士上网时往往依赖于屏幕阅读器,然而,屏幕阅读器只有一样好,那就是它们只能读好给定的文本内容。如果文本缺失,它们什么也读不出来。虽然网页标准规定,图片需要有一个叫“alt text”的字段,以防网页上的图片因为某种原因不能被显示时能够出现相应的替代文字。不过,Facebook上的大多数图片里唯一可度的文本就是随状态一起发出的文字。

人工智能如何为盲人转述Facebook上的照片?

通过应用人工智能算法,Facebook能够扫描每个图像,并整理出相应的信息描述。如果某人的帖子是一张披萨图,算法能够自动将“披萨”这个词添加到图片的替代文字中,那么屏幕阅读器就能够将图片也读出来告诉用户了。

具体来说,Facebook想要利用这个机会来使得其技术研究更加大众化。该公司的“无障碍倡议”项目(Accessibility team)和人工智能团队直接将从用户那里获得反馈利用到进一步的研究当中。3月份,Facebook与康奈尔大学共同发表了一项探索盲人如何使用Facebook的研究,希望做一个能够满足这些群体需要的产品。

“研究的过程应该是以用户的需要来驱动研究,而不是用我们的研究来产生需要。反馈让我们进行更多有用的研究。”

挑战识别并描述图片是人工智能领域里一个杰出的研究项目。新的技术和硬件支持深度学习——利用人工神经网络层级或者模拟大脑神经元的微型数学方程式 集群,来整理数据和寻找计算模式。这些技术可以应用于图像、音频、文本等几乎任何类型的数据。

单个对象的话很简单。但当存在对象相互作用,或上下文联系的情况时,计算就变得困难了,因为机器需要真正了解物理世界,并且知道客观对象之间的关系。对于一台纯粹的机器来说,它们不会有重心、家庭关系和爱。它们有的只是数据。

所以说,如果要识别出图片“父亲与女儿在散步”等信息,机器首先要学习现实世界。

而这正是Facebook Accessibility团队需要实现的。现在,他们将这些被识别的对象称为标签。一只猫是一个标签,一张床是一个标签,一个人是一个标签……有了这些信息,算法就可以说出“照片中四个人在吃冰淇淋或者披萨”等描述了。

然而,在许多方面来说,这只是一个起点。该团队不仅梦想实现更多基于上下文的对象识别,同时也希望这些识别行为更加富有互动性。Facebook的计算机视觉研究负责人Manohar Paluri曾表示,它们或许还将开发出新的功能,可以让算法描述图片的特定局部。

但在Facebook的研究中,精确度是首要的任务。Facebook、Instagram、Messenger和WhatsApp上,每天有超过20亿张图片被分享,所以,即使百分之一的误差都可能意味着数以百万计的错误。因此,工程师每次对大约100算个法可以检测的概念进行手动调整。举例来说,关于性别等信息,算法需要更多的准确性支持。据悉,大多数机器可以理解的概念是关于人们和客观事物。它知道眼镜、棒球,甚至自拍照。当然,还有一些研究员未加入数据库的图片,这通常都是一些动物,比如照片角落里有一个猫爪子。

一个猫爪出现在照片的一角,算不算一张“猫片”呢?这个问题没有标准答案

目前的人工智能,尤其在图片识别领域,很可能触碰到政治雷区,比如前阵子谷歌识图把黑人的照片辨认成了大猩猩。为了避免这种状况,Paluri 说:“我们要有足够的自信,并不断收到积极的反馈”。

“一个猫爪出现在照片的一角,算不算一张‘猫片’呢?这个问题没有标准答案”,他说,“也许这只是一张‘猫爪照片’,这就是有趣的地方”。

人工智能的研究方向还有很多,甚至可以研究笑点。但总而言之,人工智能的研究基本等同于算法的研究,人工智能的任何提升都是算法在背后起作用。人工智能的研究者们承诺将使人类的生活更简单,更美好。我们把一部分的思考外包给机器,让机器的智慧增强人类,世界将运行的更好。

现在,这项功能已经可以在 iOS 的 Facebook app 里面启用了,其他平台及英语之外的其他语言也将陆续提供支持。

原创文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/2889bb0a47131920a50d.html
全局中部横幅
全局中部横幅
盖尔伦

脑力影像盖尔伦训练系统

大棚骨架,刚光板温室大棚

大棚骨架,刚光板温室大棚-天津市华誉农业科技发展有限公司

志宏

志宏提倡优质服务理念的物流公司,以中国物流为核心。致力于为客户提供优质高效的上海仓储物流,仓储配送,第三方仓储物流与仓库托管服务电话。

深圳华富康供应链

深圳市华富康供应链股份有限公司是一家深圳进出口供应链服务提供商。在供应链领域,华富康供应链是一家专业的进出口供应链管理公司。作为深圳的领先出口代理和进口代理,我们提供全面的供应链解决方案,助力客户实现优化的进出口运作和流程管理。

电泳涂装设备

亿诚涂装设备公司专业生产电泳设备,前处理设备,烘干设备,废气塔设备等。适用于汽配,家电,五金等。价格平民厂家直销!13655773436(张经理)

小红书直播电商&品牌种草数据查询分析服务平台

蝉小红专业提供小红书数据挖掘分析服务,通过小红书多维度数据监测统计分析,提供小红书直播诊断服务,博主带货销量排行榜,小红书精细化种草运营策略,小红书热门笔记诊断分析,电商行业洞察热点趋势,品类品牌种草舆情分析报告,爆款商品销量查询。为品牌商家定制小红书精细化投放服务和种草运营策略。

江门市金羚风扇制造有限公司

江门市金羚风扇制造有限公司成立于1974年,是一家专业生产工业风机,排气扇和空气幕的制造商

2025中国(合肥)安全应急展览会

2025中国(合肥)安全应急展览会/公共安全展/网络安全展/森林消防和保护装备展/监测预警展/防汛抗旱展/应急救援展/消防展/交通展,五大主题展馆,6万平米产大展示规模,展会以“聚焦城市发展,推动产业发展”为主题,打造引领安全应急产业发展、促进行业交流、推动行业产学研销一体化、带动政府“双招双引”的大平台。

城市内涝地埋式水位监测设备

佳佳眼科技主营地埋式液位监测设备、生态流量监测设备、水雨情三要素监测设备等多种智慧水利相关产品,专注于城市内涝水位/生态流量/水雨情三要素监测产品的研发与生产,为建设智慧水利提供有力的支持。

四川中敏环境卫生管理有限公司

经营范围:建筑物清洁服务,家政服务;停车场管理;道路清洁服务;园林绿化工程、市政公用工程、环保工程的设计、施工;空气检测;环境污染治理;会议及展览展示服务;销售:清洁用品、环保设备。

物产中大金石集团有限公司

物产中大金石集团有限公司(以下简称物产中大金石)前身为中大房地产集团,始建于1992年,为上市公司、世界五百强——物产中大集团的重要成员企业,注册资金8亿元。


全局底部横幅