近日,由声网和RTE开发者社区联合主办的RTE2024第十届实时互联网大会在北京成功举办。标贝科技联合创始人&CTO李秀林受邀出席会议,并在“重塑语音交互:音频技术和VoiceAI”技术专场发表《语音合成大模型与高质量数据》主题演讲。
RTE大会创立于2015年,是亚太规模最大的实时互联网技术盛会,覆盖200+行业场景、累计影响200w+开发者。RTE2024以「AI爱」为主题,邀请了众多技术专家和开发者,围绕AICodec、语音合成、多模态大模型、空间计算、AIInfra等热门技术话题,共同探索RTE+AI的新融合与无限可能。
在“重塑语音交互:音频技术和VoiceAI”技术专场,标贝科技联合创始人&CTO李秀林博士围绕“语音合成大模型与高质量数据”主题,分享了在大模型时代中语音合成技术的最新发展趋势和机遇,以及标贝科技在语音合成大模型领域的技术研发、高质量数据集建设与大模型训练的关系等实践经验。
大模型时代,对语音合成的新期待
2014年,一部讲述人类与AI爱情的电影《Her》爆火。影片里,男主角西奥多的工作生活均靠一套语音操控的随身设备来操控。例如,用语音输入信件内容,代替不善表达情感的人写情书,通过语音指令收听歌曲、接收邮件等。后来,西奥多遇到了AI机器人“萨曼莎”。“萨曼莎”拥有一副温柔的嗓音,不仅非常体贴还很懂西奥多。在和“萨曼莎”的长期语音交流中,西奥多坠入爱河,开始了一段“人机恋”。
十年过去,在技术的推动下,这部电影里的科幻场景不断照进现实,各种语音产品极大的丰富了用户的AI交互体验。
随着应用场景的不断拓展,千篇一律的“标准音色”早已无法满足多样化声音需求,用户对合成声音的要求日益提升。他们渴望更加个性化、富有特色、能够产生情感共鸣的声音体验。这些新的需求为语音合成技术的发展指明了新的方向。
事实上,作为人工智能领域的一个重要分支,语音合成紧跟大模型技术的发展,已经展现出巨大的应用潜力,让合成声音的效果达到了一个新的高度。在声音克隆、跨语种合成、语音控制等任务中展现出卓越效果,实现音质、断句气口、韵律节奏、风格、感知等方面都达到更生动、更具情感表现力的听觉体验。
目前,国内外AI企业都在围绕语音交互展开深度布局,相继推出自己的语音合成大模型。例如微软的VALL-E、阿里的CosyVoice等。
标贝科技语音合成大模型
标贝科技深耕人工智能语音领域多年,致力于智能语音技术的创新研发和商业化应用。基于深厚的技术积累,推出自研的语音合成大模型。
依托新一代大模型能力,标贝科技语音大模型在捕捉音频特征和上下文关系方面表现出色,仅使用三秒左右的样音,就可以生成极为自然、保真且个性化的合成音色,同时保留样音中所体现的情感特点,精准贴合每位用户的独特需求。
相较于传统语音合成技术,标贝科技的语音大模型以更精准、快速的方式,在音质、断句气口、韵律节奏等方面达到以“AI”乱真的合成新高度。
除了超自然的合成效果外,标贝科技语音合成大模型支持微调功能。即在预训练模型的基础上,针对具体的应用场景、目标用户或特定需求,对模型进行优化和调整,提高模型在特定场景下的表现。
例如,在短视频配音中,生成具有个性化风格和情感的语音提高视频的观赏性和吸引力;在教育领域,生成符合不同年龄段学生需求的语音,提高学习效果。通过微调,让语音合成大模型灵活应用于不同的领域和场景,生成更加符合用户需求的语音。
标贝科技高质量语音合成数据,拓宽语音大模型边界
“高质量数据是大模型的核心竞争力之一。”标贝科技联合创始人&CTO李秀林博士在演讲中强调。
李秀林博士解释,在语音合成领域,数据的多样性和质量直接决定了模型能否学习到丰富的语音特征和模式。特别是在SFT(微调)过程中,精标语音合成数据是提升模型性能和质量的关键因素之一。高质量的数据集包含了清晰、自然、多样化的语音样本,这些样本能够帮助模型更好地捕捉到语言的细微差别,如语调、音色、语速、情感、风格等,从而提升语音合成系统的整体表现。
成立多年来,标贝科技基于高质量的精标数据能力以及丰富的多模态数据资源,为客户提供数据采标、数据管理、模型训练与优化、部署与应用一站式服务体验。目前已经拥有近40+语种及方言高标准合成数据库,包括英语、巴葡、马来语、越南语、菲律宾语、泰语、印尼语、印地语、阿拉伯语、日语、韩语、俄语、德语、西班牙语、法语、意大利语等语种,覆盖儿童、少年、青年、中年、老年不同年龄段,以及多风格、多情感音色,让模型能够覆盖多样化的内容表达和使用场景,更加贴近真人的自然表达。
通过大规模、高质量的数据训练,目前语音合成大模型已经展现出了令人瞩目的性能表现,不仅为语音交互、语音助手等应用场景提供了强有力的支持,也为未来的语音合成技术发展奠定了坚实的基础。我们期待,在不久的将来,语音合成大模型将在更多领域发挥重要作用。标贝科技也将依托大模型支撑,持续精进与优化声音定制服务,打造更加细腻、自然且高度个性化的人机交互体验。