近日,2025AI+研发数字(AiDD)峰会在上海举办,峰会以“拥抱AI 重塑研发”为主题。邀请了来自百度、阿里、腾讯、华为、作业帮等头部互联网企业,以及各大高校的一线从业者和技术专家带来最前沿的主题内容分享。作业帮资深算法专家周舒然受邀发表主题演讲,分享作业帮在多模态交互技术上的前沿探索与教育场景落地实践,现场学习氛围热烈,与会者好评如潮。
周舒然在演讲中指出,传统语音交互存在响应慢、理解偏差、体验割裂等问题,而大模型技术的发展为重塑语音交互体验提供了新的可能。从2023年开始,作业帮通过将语音识别、自然语言处理与语音生成深度融合,推出“理解-推理-生成”的多模态融合一体化解决方案,显著提升了交互效率与智能化水平。例如,作业帮研发的Instruct and Context-Awared TTS,可以结合上下文来产生更加真实、充满感情的语音合成系统,以及 LLM -Based ASR and Audio Chat,可以直接做到语音到文本的回复,能够理解用户语音情感和声音的系统。虽然这些系统尚未实现完全端到端,但已有效解决了传统语音交互的多个痛点。
2024年,作业帮进一步突破技术瓶颈,推出完全的端到端语音和流式全双工语音交互系统。通过创新的数据链路,Tokenizer设计,多模块融合以及推理优化,在保持稳定的聊天能力同时,将首次响应时间(TTFT)和首次语音生成时间(TTFS)大幅缩短。周舒然强调,语音交互作为最自然的人机接口,未来将成为Kernel级应用。作业帮将持续投入Voice-Agent技术研发,推动其与教育内容的深度融合,为师生创造更智能、高效的学习体验。
目前,作业帮的多模态交互技术已在多个产品中实现规模化应用。以教育行业Top1的快对AI为例,这款DAU超1200万的App已完成全面AI化改造,其中全新推出的AI口语老师方案通过多模态能力实现动态对话教学、智能纠错和联想互动,有效帮助学生突破“哑巴英语”困境,在沉浸式体验中提升语言能力。
周舒然表示,我们一直坚信语音是人类与技术交互最自然、最高效的接口,也是人与设备之间最直观的沟通方式, 未来是可以作为Kernel级别的应用来存在。未来通过Voice-Agent的能力,语音交互将继续成为无所不在的能力。在教育领域,Voice-Agent和丰富的学习内容互动,已经逐渐有明确的落地和PMF场景,我们也会持续投入,致力于提供更好的学习体验。
责任编辑:kj005
近日,2025AI+研发数字(AiDD)峰会在上海举办,峰会以“拥抱AI 重塑研发”为主题周舒然在演讲中指出,传统语音交互存在响应慢、理...
引言:学习机行业的发展前景呈现出积极向上的态势,这主要得益于在线教育的普及、消费者对教育硬件需求的增长以及技术的不断进步近期,尚普咨询集团向读书郎教育科技有限公...
一年一度的618购物狂欢节已经拉开帷幕,而今年的“巅峰28小时”无疑是整个618期间最值得期待的购物时段首先 划重点!今年京东的618红...
李女士(化名),32岁,婚后5年未孕五年前,当李女士与丈夫携手步入婚姻的殿堂时,他们满怀期待地憧憬着未来小生命的到来求医之路漫长且艰辛,李女士夫妇几乎走遍了当地...
在生殖健康的道路上,有些挑战格外令人心碎经朋友推荐,李女士慕名找到了在生殖医学领域深耕三十载的赵颖丽主任医师面对李女士的焦虑,赵颖丽主任展现出的是专业、耐心与细...
路曲主任,一位在生殖医学领域深耕多年的专家,以其精湛的医术和无私的奉献精神,为无数不孕不育家庭带来了生育的希望坎坷求子路,终遇良医赵先生和王女士是一对恩爱的夫妻...