着眼两大核心应用问题 2018 SMP 第二届中文人机对话技术评测顺利落幕 (两个核心是)

雷锋网 AI 科技评论按:由中国中文信息学会社会媒体处理专委会主办、哈尔滨工业大学承办的第七届全国社会媒体处理大会(SMP 2018)于 2018 年 8 月 2 日- 4 日在哈尔滨召开。雷锋网作为独家战略媒体带来专题报道。

对话是人机交互最为流畅且自然的一种形式,因此人机对话成为自然语言处理的一个重要研究方向。以微软小冰、Siri 为代表的人机对话产品也作为产业界的代表应用迅速发展。与之相应地,人机对话的技术评测也成为了高校及企业技术的「练兵场」。

着眼两大核心问题,SMP 2018 第二届中文人机对话技术评测顺利落幕

8 月 4 日下午,SMP 2018 第二届中文人机对话技术评测(The Second Evaluation of Chinese Human-Computer Dialogue Technology,SMP-ECDT) 的颁奖仪式及技术报告论坛顺利召开。

本届 SMP-ECDT 由中国中文信息学会社会媒体处理专委会主办,承办方包括哈尔滨工业大学和提供数据支持的科大讯飞股份有限公司,此外华为公司提供奖金支持。SMP 2018 技术评测委员会组织架构包括主席张伟男(哈尔滨工业大学),委员陈志刚(科大讯飞股份有限公司)、车万翔(哈尔滨工业大学)及张轶博(华为公司)。

本届 SMP-ECDT 技术评测沿袭上一年的赛制,分为用户意图领域分类及任务型人机对话在线评测两个任务。

用户意图领域分类(任务一)针对闲聊类和任务类两大类领域(domain),要求系统将用户在单轮对话的输入分类对应到相应的领域中;其中,任务类又细分为 30 个垂直领域。

在人机对话的应用过程中,只有正确判断用户的意图,并正确进行划分,才能进一步返回正确的回复结果。在本任务中,参赛者可以开放地获取除主办方提供的数据之外的训练及开发数据;主办方提供给定测试集,并运行参赛系统,在测试集上面得出评测结果。评价标准包括准确率(P)、召回率(R)及 F 值。

任务型人机对话在线评测(任务二)则涵盖机票类、火车票类、酒店类 3 个垂直领域,系统通过与测试人员实时在线对话完成相应的预定或查询任务。

整个评测过程对不同的参赛系统均给定相同的首轮对话输入,评测员根据给定的完整意图描述与参赛系统进行交互直至对话结束;系统返回所有任务(单任务或多任务)的执行结果,此外,如果单个任务在 30 个对话轮数之后仍未返回测试员所需的结果,则对话测试结束。评价指标包括任务完成率、对话轮数、用户满意度、回复语言的自然度及资源未覆盖情况的引导能力等五大领域。

SMP-ECDT 技术评测从 2018 年 4 月 1 日启动,历经近五个月的赛程,最终吸引了 80 支队伍共 248 位参赛者报名,相较去年第一届技术评测有了一定程度的提升。值得一提的是,来自工业界的队伍比重相比去年有所增加,SMP 2018 技术评测委员会主席、哈尔滨工业大学张伟男博士表示,这从一个侧面上反映了工业界对人机对话技术的关注度在不断提高,技术水平也在不断进步。

SMP-ECDT 技术评测于 7 月 23 日公布评测结果,详情如下:

着眼两大核心问题,SMP 2018 第二届中文人机对话技术评测顺利落幕

着眼两大核心问题,SMP 2018 第二届中文人机对话技术评测顺利落幕

尽管评测主题相比去年并没有明显变化,但张伟男博士向雷锋网 AI 科技评论介绍,两个任务都采用了新的数据集,且任务一的测试集规模更大,提升了技术评测的任务难度。

与之相应地,任务一参赛队伍的整体指标相比去年有所下降。不过,技术评测委员会也从中看到了参赛团队的进步。

「我们看到了最近比较火的基于 T2T 的 Transformer 模型应用在了任务一的参赛系统中,并且取得了第一名的成绩,相比于 LSTM,Transformer 仅利用 multihead 的 attention 技术,模型整体更加简单高效,同时我们还看到了 FastText 在数据预训练及获取词汇 embedding 上的应用及取得的成绩。」

而任务二除了采用全新数据集外,也参考去年所遇到的一些测试问题做出了修正。令评测委员会感到欣喜的是,今年任务二的任务完成率和平均话轮数两个主要指标有了明显的提升,张伟男博士表示,「这无疑标志着人机对话技术在过去的一年中,起码在我们这个任务中,有了较大的进步,让我们对后续的进展充满了信心和期待。」

着眼两大核心问题,SMP 2018 第二届中文人机对话技术评测顺利落幕

从去年开始,SMP 技术评测委员会在刘挺老师和蒋盛益老师的支持下,于 SMP 大会上连续举办两届中文人机对话技术评测,开创先河。张伟男博士介绍道,在制定评测内容的过程中,委员会认为不仅要考虑人机对话研究上的热点,更应该考虑人机对话在实际应用中的关键核心问题。「经过多次讨论我们确定了两个评测任务,即用户意图分类和在线人机对话实时评测。经过两届的评测,我们欣喜地看到了人机对话技术在这两个任务上的进步,同时也发现了一些问题,如模型的领域迁移问题。」

结合各个团队在比赛过程中暴露的共同问题,评测委员会在未来调整评测重点及后续方案的制定。张伟男博士也表示,在未来,他们也将规划与真实应用场景的结合,如手机助手、智能音箱等,让参赛队伍能在实践中及时获得反馈并做出调整,这也有益于推动人机对话技术的进步与落地。

SMP2018中文人机对话技术评测(ECDT):

原创文章,未经授权禁止转载。详情见 转载须知 。

着眼两大核心问题,SMP 2018 第二届中文人机对话技术评测顺利落幕


本文地址: https://www.gpxz.com/article/47604a706ae42145987f.html
全局中部横幅
全局中部横幅
打印机驱动,打印机驱动下载

提供打印机驱动下载,为您安装和使用打印机驱动提供帮助,解决您在打印机驱动使用过程中的困惑。

独立控制面板登录

虚拟主机,我司是专业的虚拟主机域名注册主机租用服务商,全面支持:JSP虚拟主机,PHP虚拟主机,ASP虚拟主机,ASP.NET虚拟主机,PERL虚拟主机,JAVA虚拟主机.近50项全系列网站管理工具。全国依靠的双线、多线机房,全国畅通无阻!

星鑫防爆电器有限公司

星鑫防爆电器有限公司主要从事厂用防爆电器、防爆灯具、防爆管件等20多个系列,500多种规格的防爆产品的开发与制造。

日本料理的家常做法

日本料理的做法_家常日本料理的做法非常简单易学。豆果美食提供的图文日本料理的家常做法大全和日本料理的视频,用最短的时间让你学会日本料理的做法

_笔记_豆果美食

豆果美食为华人美食菜谱社区,提供各种美食、菜谱大全、食谱大全、精选的家常菜谱大全,用户通过图文形式记录生活的点滴,社区每天产生数万次的笔记曝光,内容覆盖时尚、护肤、美食、旅行、影视、读书、健身等各个生活方式领域。与千万会员一同分享的人生!

花薇英语网

花薇英语网是一个专注于在线英语学习的网站,提供听力、口语、阅读和写作等方面的训练,帮助你逐步提高英语水平。在这里,你可以找到适合自己的学习路径,与花薇英语一起,开启你的英语学习之旅吧!

技术茂

技术茂是澳卡斯(北京)科技有限公司推出的科技创新服务平台,致力于创新生态构建,通过科技成果转化和开放式创新推动企业转型升级,促进大中小企业融通创新。技术茂是一个专业的找技术、找专家平台。_

雪球加拿大预测

雪球加拿大预测【PCJND.VIP】是一家加拿大28留学生人才市场、专业提供加拿大、预测数据,模式测试及结果查询算法,做专业的加拿大网站数据统计站。

山东正衡土地房地产评估勘测有限公司

山东正衡土地房地产评估勘测有限公司为专业从事土地和房地产评估、测绘、土地规划设计和用地咨询服务等相关业务的中介机构,是省内最早开办的同类机构之一。公司前身为山东省国土资源厅直属事业单位山东省地产估价事务所。成立于1992年8月,于2000年底完成脱钩改制。 

成都百裕制药股份有限公司

成都百裕制药股份有限公司(简称百裕制药)成立于2005年,总部位于四川成都,是一家专注于创新药研发,集研产销为一体的医药企业。百裕制药以“百年济世,裕享安康”为企业使命,以“满足人类未被满足的健康需求”为奋斗目标,以“科技创新”为核心驱动,聚焦中枢神经系统、肿瘤、自身免疫性疾病及抗衰四大领域,秉承“逆境中不服输,执着中不迷失”的企业精神,不断挑战人类疾病治疗难题,力求为全球开发出更安全、更高质量、更普惠有效的创新药!

死亡搁浅

《死亡搁浅》是小岛秀夫离开科乐美后创立新工作室的首部作品,是一款极具实验性的开放世界动作游戏。它讲述送货员山姆·波特·布里吉斯在因“死亡搁浅”灾难而社会瓦解、异界生物BT肆虐的末世美国,通过运送物资重新连接孤立城市与幸存者的故事。

全局底部横幅