声网发布 AI 能力全景图 时代的 RTE RTE2024 RTE AI 聚焦Gen (声网xla)

文章编号:36156 资讯动态 2024-11-30 AI MiniMax 生成式 AI RTE

10月25日,由声网和 RTE 开发者社区联合主办的 RTE2024 第十届实时互联网大会在北京正式开幕,本届大会主题为“AI 爱”,覆盖AI、出海、社交泛娱乐、IoT、Voice AI、空间计算等20+行业及技术分论坛。

今年是声网成立的十周年,也是 RTE 大会的第十届。十年间,实时互动从“理念”发展成一个“行业”。实时互动技术不仅助力社交泛娱乐、在线教育、IoT、企业服务等几十个行业、数百个场景实现了跨越式成长,也支撑了诸多互联网风口的进化,从过去的电商直播、互联网医疗、秀场直播到如今的大模型,都离不开 RTE 能力的参与。

在全新的生成式AI 时代,RTE 与 AI 也将迎来更多可能性。25日上午的 RTE2024 主论坛中, 声网创始人兼 CEO 赵斌、Lepton AI 创始人兼 CEO 贾扬清、声网首席科学家、CTO 钟声分别带来主题演讲 。赵斌分享了声网十年以来专注实时互动行业的深刻洞察,以及他对 RTE 在生成式 AI 时代下未来发展的趋势判断。贾扬清则站在 AI 基础设施的视角下,分享了他对 AI 应用、云、和 GPU 算力云技术的独到观点。钟声的主题演讲聚焦在对实时 AI 基础设施的探讨上,并分享了 AI 与 RTE 结合的前沿技术实践。

RTE2024:聚焦Gen AI 时代的 RTE,声网发布 RTE+AI 能力全景图

赵斌:生成式AI 将驱动 IT 行业四大变革

生成式AI 正在驱动 IT 行业发生大变革,赵斌认为,这一趋势主要体现在四个层面:终端、软件、云和人机界面。在终端上,大模型能力将驱动 PC 和 Phone 往 AI PC 和 AI Phone 的方向进化。在软件上,所有的软件都可以、也将会通过大模型重新实现,并从 Software with AI 发展至 AI Native Software 。在云的层面,所有云都需要具备对大模型训练和推理的能力,AI Native Cloud 将成为主流。此外,人机界面的主流交互方式也将从键盘、鼠标、触屏变成自然语言对话界面(LUI)。

RTE2024:聚焦Gen AI 时代的 RTE,声网发布 RTE+AI 能力全景图

随着生成式AI 成为下个时代 IT 行业进化的主题,RTE 也成为了多模态应用和基础设施中一个关键的部分。10月初,声网的兄弟公司 Agora 作为语音 API 合作者,出现在了OpenAI 发布的 Realtime API 公开测试版中。

在此次大会中,赵斌表示,声网与 MiniMax正在打磨中国第一个Realtime API。赵斌也展示了声网基于 MiniMax Realtime API 打造的人工智能体。在展示视频中,人与智能体轻松流畅的进行实时语音对话。当人类打断智能体并提出新的疑问时,智能体也能够灵敏的快速反应,实现了与人类自然流畅的对话。

RTE2024:聚焦Gen AI 时代的 RTE,声网发布 RTE+AI 能力全景图

在生成式AI 的大潮下,RTE 将会提供更为广阔的空间。赵斌也在分享中宣布,声网正式发布了 RTE+AI 能力全景图。在全景图中,声网从实时 AI 基础设施、RTE+AI 生态能力、声网 AI Agent、实时多模态对话式 AI 解决方案、RTE+AI 应用场景五个维度,清晰呈现了当下 RTE 与 AI 相结合的技术能力与应用方案。生成式 AI 与RTE 结合带来的场景创新,将成为下一个十年的主题。

RTE2024:聚焦Gen AI 时代的 RTE,声网发布 RTE+AI 能力全景图

过去十年,声网不仅见证并推动了RTE 从一个理念变成一个行业的过程,更身体力行的打破了国内实时音视频领域的三无状态。赵斌称,10年前行业内没有行业会议、专业书籍、以及专业媒体和社区。如今,RTE 大会迈入第10年,声网也于今年8月正式出版行业首本系统介绍实时互动的技术型科普图书《读懂实时互动》,同时,RTE开发者社区也持续繁荣,加速推动。

贾扬清:AI 是云的第三次浪潮

随着AI 技术的发展,AI 时代的大模型应用开发、AI 云、以及 GPU 等基础设施建设逐渐成为热门话题,也成为了支撑整个行业发展、催生新应用诞生、新商业价值实现的基本底座。Lepton AI 创始人兼 CEO 贾扬清在 RTE2024 主论坛上分别从 AI 应用、云、GPU 算力云技术以及企业大模型自主性等层面带来了他对 AI 基础设施进化的解读。

针对AI 应用,贾扬清指出,越是简洁的 AI 模型思路越容易产生优秀的效果。AI 能力加持后,应用本身的开发范式也在从数据、模型、应用构建三个维度发生变化,未来的应用开发将从“以流程为中心” 转化为“以模型为中心”。

RTE2024:聚焦Gen AI 时代的 RTE,声网发布 RTE+AI 能力全景图

除了AI 应用层面,传统的云架构也在大模型、GPU 优化等需求的催化下发生了翻天覆地的变化。贾扬清认为,AI 是云的第三次浪潮,继 Web 云、数据云之后,AI 将成为第三朵云。AI 云有以下三个特征:算力会成为智能的基础、AI 云需要大量计算与大规模的异构集群,以及少量但高质量的通讯。总体而言,云的产品形态,本质是计算和传输的平衡。贾扬清指出,在 AI 云的形态下,实时的交流和智能的结合在用户体验环节非常重要。毫不夸张的说,实时将直接与生产力划上等号。

企业在构建自己的大模型自主性上,到底该如何决策?贾扬清强调,企业应该将开源和闭源大模型都纳入考虑范畴。采用开源模型+定制化的优势不仅仅是具备更强的可定制性,还有更低的成本以及更高的速度,开源+定制化能够达到比闭源模型更好的效果。

钟声:分布式端边云结合的AI系统将成为现代基础设施的基本形态

在已经到来的AI 时代,现代化基础设施应该是什么样?声网首席科学家、CTO钟声提到,大量用户设备往往会先接入边缘节点、并在需要的时候再接入云端,数据将在端设备、边缘节点和云之间往返传递。AI 时代的数据中心会包含以大量异构算力组成的超级计算集群(SuperScaler)。但是,停留在仅依赖超级计算集群的系统是远远不够的,万亿参数、多模态引入所造成的高昂计算成本、缺乏机制约束的数据隐私保护、几秒钟的延时都将阻碍大模型的普惠,极大地限制其在很多场景下的应用。

钟声认为,分布式端边云结合的AI 系统将有效解决这些痛点。这个系统将把计算和传输在各节点做合理地配置,系统会智能地以自适应的方式把任务编排到端与边上执行,非常有效地降低了成本,同时提供了更低延时(低于1秒级的响应速度)、更高网络抖动容忍度、优秀的抗噪声能力,并且完整的用户数据只会保留在端上。

RTE2024:聚焦Gen AI 时代的 RTE,声网发布 RTE+AI 能力全景图

分享过程中,钟声还在大会现场展示了一个由STT、LLM、TTS 、RTC四个模块组成的端边结合实时对话AI智能体,这也是首次有厂商在比日常实际场景更具挑战的环境下展示实时AI 对话能力。大会现场观众规模超过千人,面临复杂的噪声、回声、麦克风延迟等困难,但智能体与钟声的互动仍然表现出了优秀的对话能力,在普通5G网络环境下实现了流畅、自然、有趣的双向实时对话,对话模型的极快响应速度、及时打断与被打断的自然程度、对抗噪声能力、遵循语音指令做等待能力都非常突出。

正如钟声在最后分享的,随着端设备的多样化以及能力的提升,AI 基础设施会变得更优化合理,使得 AI 无处不在,AI助理、AI分身帮助我们有效缓解时间稀缺性,改善工作效率和生活体验。

圆桌:AI 的6000亿难题,从基础设施到商业化落地

AI 的6000亿美元难题,一直都是整个行业非常关心的话题,在圆桌讨论环节中, Lepton AI 创始人兼 CEO 贾扬清、MiniMax 合伙人魏伟、面壁智能联合创始人&CTO 曾国洋、Hugging Face 工程师王铁震、Agora 联合创始人 Tony WANg 五位嘉宾一起探讨了从AI 基础设施到 AI 商业化落地的机会与挑战。

RTE2024:聚焦Gen AI 时代的 RTE,声网发布 RTE+AI 能力全景图

针对商用大模型和开源大模型未来的发展趋势,贾扬清分享了两个核心观点:其一,同等质量模型的Size会变得越来越小,计算效率会越来越高,模型架构也会变得更加开放和标准。其二,除了极少数头部公司之外,越来越多的企业会采用开源架构来做下一代模型。因此,开源架构的应用会变的越来越普遍,通过开源架构训练出来的模型也都会有各自不同的风格。

王铁震则表示,我们将在未来看到越来越多Infra 和 Realtime 的工作,大家不仅需要关注开源模型本身,还需要重视开源模型的基础设施和数据闭环,才能把开源模型跑得更好、更快。Realtime 需要TTS、也需要大模型,如果能够通过一些方式放在一起,放在边缘侧、离用户更近的地方,才能产生较好的效果。

关于如何看待音视频多模态模型的实际应用潜力,魏伟表示,随着多模态的出现,生成式人工智能的边界一定会被继续拓展,并加速这一产业的变革。从产品和用户服务过程中魏伟发现,文本、语音、音乐、视频这些模型可以帮助艺术、影视、音乐等领域的创作者极大地提高效率,并为他们提供新的思路和方法。

针对大模型技术巨大的成本使用问题,曾国洋分享到,随着技术的前进,算力一定会变得越来越便宜,相同能力的模型规模也会变得越来越小,但算力成本优化会最终转化为训练更强大的模型。真正达到AGI 水平之前,我们只能感受到模型在变得越来越强,很难感受到成本的变化。了解到,由于面壁智能是做端侧模型的,所以很关注如何让模型在端上跑得更快,在实际部署过程中,他们会用各种量化压缩甚至是稀疏化方法去优化实际部署的开销。

总结来说,Tony Wang 认为想要推动 AI Infra 到模型、再到商业化落地,技术驱动和成本是最核心的两个点。此外,在产品真正走向市场的过程中,流量和口碑也是关键。

过去十年,声网不仅见证并推动了RTE 从一个理念变成一个行业的过程,更身体力行的打破了国内实时音视频领域无行业会议、无专业书籍、无专业媒体及社区的三无状态。自此,RTE 大会迈入第10年,行业首本系统介绍实时互动的技术型科普图书《读懂实时互动》于今年8月正式出版,RTE开发者社区也正在秉持着“开放、连接、共创” 的理念加速实时互动和 AI 的共生。

未来,声网将继续和大家一起,站在全新的起点、拥抱繁荣且充满挑战的AI + RTE 新时代。

原创文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/687ca5a913d8f3d3a98b.html
全局中部横幅
全局中部横幅
生产日期喷码机

生产日期喷码机,纸箱喷码机,编织袋喷码机,激光喷码机,手持喷码机,二维码喷码机,欢迎来电咨询13176533302

福建台鑫建材科技有限公司生产泡沫混凝土

福建台鑫建材生产泡沫混凝土|A级防火水泥发泡板|福州岩棉板|酚醛保温板|聚氨酯保温板|福州排水板|土工膜|防水卷材|防水涂料

简艺

简艺智慧店务系统是为服务型门店开发的专业管理软件,实现收银,会员管理,会员卡,员工管理,商品库存管理,服务项目管理,考勤打卡等各种场景,能极大提高门店管理效率

自动锁螺丝机

深圳市普思自动化科技有限公司,国家高新技术企业,专注自动化行业16年,销售批发自动锁螺丝机,自动点胶机,自动打螺丝机,自动拧螺丝机等各式自动化机械设备,联系热线400-961-1193

猪八戒网

找品质企业服务,就上猪八戒。猪八戒网可提供品牌设计、营销策划、网站建设、知识产权、工商财税等800+种品质服务。18年专业企业服务经验,300+线下服务网络,企业服务放心购,明码实价,不成功退款。

福建海鲸消防有限公司

海鲸消防,三鲸消防,固定式消防炮系列,气体、干粉灭火系统,泡沫灭火系统,自动喷水灭火系统,消防给水设备系列,消防水带、卷盘、消火栓箱

315汽车网

汽车投诉,汽车维权,汽车投诉网,汽车质量投诉、汽车服务投诉、4S店投诉的首选平台。旨在打造一个汽车厂商、经销商、车主三者之间提供一个在线服务跟踪、沟通的平台,是提高汽车行业产品质量的重要推动者。315汽车网将依托众多合作网站、媒体联盟,努力使车主的抱怨信息得到合理解决,为汽车行业企业量身打造“诚信”品牌、最终达到繁荣整个汽车消费市场的目标。

海绵汇率换算工具网

海绵汇率换算工具网海绵汇率换算工具网是具有影响力的财经门户,为炒外汇投资者提供外汇汇率、今日汇率查询、实时比价、最新货币利率等内容,以及提供实时查询全球150多种常见货币汇率计算兑换换算服务。

四环生物

四环生物,国内领先的制药厂商

福建省卓宇环保工程有限公司

福建省卓宇环保工程有限公司-福建省卓宇环保工程有限公司位于福建省泉州市惠安县螺城镇建设北街883号,所属行业为生态保护和环境治理业。经营范围包含:废水处理工程设计与施工;VOC废气处理工程设计与施工;降噪工程设计与施工;河道、湖泊等生态环境整治及景观工程设计与施工;土壤污染修复工程.

无锡网站制作,无锡网站建设,网页设计,外贸网站制作

无锡伟致专注于无锡、苏州、常州、宜兴、南通周边高端网站建设开发、网页设计制作、微信小程序、企业官网定制、服务器运维等务,公司拥有完善的技术团队和多项软件产品知识产权证书,服务热线:0510-82820002


全局底部横幅