世界焦点!讯飞输入法12.0“新输入”拥抱万物智能时代
11月19日下午,2022科大讯飞全球1024开发者节“输入生态”论坛拉开帷幕。本次论坛以“新输入·赋万物”为主题,探讨万物智能时代下,人机交互的发展和变革,阐释讯飞输入法如何运用AI赋能拥抱万物智能时代、探索“新输入”传承中华文化的新路径。
会上,讯飞输入法总经理程坤发表题为《新输入·赋万物》的主题演讲。他表示,近年来,万物互联、万物智能成为时代特征,并深刻改变着我们的生产生活方式。讯飞输入法作为人工智能应用的先行者,始终致力于技术与产品创新,赋能亿万用户高效输入“乐享表达”。
最新数据显示,讯飞输入法日活用户已突破1亿,语音渗透率达75%,日语音调用量较2021年提升45%,这组数字说明讯飞输入法正迎接万物智能时代的新机遇、新赛道、新可能。
(资料图片仅供参考)
近年来,5G网络发展、IoT设备激增,种种迹象都指向了“万物皆终端、终端皆互联”。程坤指出,万物智能时代来临之际,储备前沿的人工智能技术并持续产品创新是讯飞输入法未来的关键点和制高点。
在通往智能之路上,讯飞输入法以人工智能技术作为升级迭代的驱动力,基于多环境因子嗅探的动态模型延展,通过增强模型和识别模型的深度耦合,推出了解决高噪、远场混响等复杂环境下的高精度语音识别。依托于高噪识别技术能力的支撑,在家居、车载、街区、公共交通、多人说话等典型高噪场景下,讯飞输入法依然能“听得清”“更懂你”。
深耕行业十二载,讯飞输入法在语音交互领域有着深厚的积累,为了给用户提供更自然、智能、可靠的交互体验,这一次全新升级语音个性化方言免切换模型,采用Conformer Encoder音频编码和全语言专家系统,实现用户级语言个性化识别,可支持普通话与20多种方言免切换语音识别。人与形态多样的设备之间的交互难题通过搭载通用的免切换语音有了新的突破口。此外,离线方言语音识别技术在讯飞输入法中得到应用,极大地降低语音交互门槛。目前,讯飞还基于多语种合成技术,利用海量文本数据对小语种数据增强,扩充支持30种语言语音识别,进一步拓宽了语音输入场景。
程坤特别提到,“看到语音交互的增长、看到越来越多用户的认可,我们相信万物智能时代,AI将助力讯飞输入法建构更大的用户价值。同时,我们预判在这个新阶段将面对3个新的输入问题——复杂多样的交互界面、输入场景以及用户需求。”
讯飞输入法产品总监赵明路在现场发布“讯飞输入法12.0”,分享万物智能时代下,面对输入法新考题,讯飞给出的解决方案。
首先,讯飞输入法面向移动终端、穿戴设备、智能家居、车载车机等繁杂多变的交互界面定制了不同的输入解决方案。例如为手表等小屏设备提供便捷的语音输入,面向折叠屏设计了“分裂键盘”形态,更为平板等大屏定制了“随意写”等。
其次,围绕智慧生活场景,讯飞输入法基于输入服务与用户连接的需求根基,提出一整套输入新方案。以AI助手为例,讯飞输入法的AI助手已内置22种AI功能,覆盖聊天、发布、搜索、评论、评价、个性表达6大输入场景,不仅功能越来越强大,服务越来越完善,体验也越来越趋于完美。面向复杂多样的输入场景,讯飞输入法12.0搭载全新AI智能化输入引擎,在聊天、音乐、综艺、影视、生活服务情景下,都能赋以高效、准确、自如的表达。
此外,面向游戏玩家、职场达人、银发人群、视障群体,讯飞输入法加入游戏语音键盘、跨屏输入、长辈模式、无障碍输入等模式,支撑起更多元、个性化的交互服务。在键盘视觉下,讯飞输入法打造了“超级皮肤”,将科技感、酷炫感、皮肤美学融入沉浸式的输入场景,抓稳用户体验。赵明路表示,除了视觉创新,讯飞输入法也在不断丰富内容服务,比如语录功能,从提供基础交流、工作沟通需求,发展到满足用户网购、社交、外卖等消费和生活的场景需求,弥补对内容表达的新需求。
作为人工智能技术的天然载体,输入法从工具到服务再发展到生态圈层,每一次的进步都离不开创新,技术的创新又为内容生产方式注入新的生机活力。数据显示,讯飞输入法个性化内容服务使用者中年轻用户占比达48%,吸引了内容创作者过万人,内容使用量多达100亿次。
会上,赵明路正式发布“i-Blocks”输入个性化内容开放平台。该平台以讯飞输入法为基座,秉承生态开放的理念,助力众多创作者获得内容业务的快速增长。
在12.0版本发布之际,赵明路表示,“在这个充满不确定性而又伟大的时代,我们希望‘讯飞输入法12.0’能让每个人的指尖都轻松一些。”
一直以来,讯飞输入法充分挖掘方言的文化内核,努力“拓圈”传承,先后与新华书店、苏州博物馆、海南民生广播、中国蓝TV展开广泛合作。此外,还携手中国方言研究院、苏州图书馆等多家单位推出线上方言公开课、教学短片,用方言魅力增强地域文化自信。这些努力不仅有利于加大方言保护的力度,也将对文化传承产生深远的影响。
借由这一次的发布,讯飞从输入生态的初心、洞见、探索、收获等角度重构了输入法,引入面向未来的多模态感知、深度理解、多维表达等能力,在语音交互基础上展示“新输入”的创造力和想象力,落地更个性、更自然、更智能的人机交互。
关键词: