用语言模型探索语音风格空间:无需情感标签的情 感TTS

news/2025/3/15 22:54:35/

语言模型探索语音风格空间:无需情感标签的情感TTS

原文:Exploring speech style spaces with language models: Emotional TTS without emotion labels

今天我们要说的是 一种无需情感标签的情感TTS。提出了一个基于FastSpeech2的E-TTS框架,该框架经过两个阶段的训练,直接从未标注情感的训练数据中学习情感表示。我们利用风格标记构建情感风格空间,并使用微调后的BERT模型有效探索此空间。
下面先来看一下这个两阶段训练方法,
第一阶段:构建情感样式空间,
训练声学模块,包括文本、方差适配器、解码器和GST网络(由参考编码器和样式嵌入组成),如图1所示。编码器将音素嵌入转换为音素隐藏序列,而方差适配器则引入引入了音高、时长和能量的变化。解码器然后将这个隐藏序列翻译成梅尔频谱图输出
第二阶段:使用语言模型探索样式空间
第二阶段包括三个模块,
情感数据修剪: 为了捕捉语音-文本对之间的情感关联,我们使用微调后的DistilRoBERTa-base语言模型,从文本中预测情感类别概率。对于每个样本,我们使用该模型计算主导情感。如果主导情感类别的概率超过实验选择的阈值Pth,则将该样本包含在第二阶段的训练数据集中。这和我之前在群里说的用分类器收集语音很像哦(识别是正常人的语音舍弃,构音障碍的语音就收录。)
情感文本嵌入:为了表示文本中的情感内容,我们使用微调后的DistilRoBERTa-base语言模型的最后一层的平均池化提取情感文本嵌入。
适配模块:我们建立了文本中情感上下文与语音中情感韵律之间的情感关联。可以看图2 主要是 对情感样式空间和情感文本嵌入空间的可视化及概念链接。
然后,看一下实验,
我们使用两个数据集的组合训练TEMOTTS的第一阶段:LJSpeech和情感TTS数据集。将数据集
划分为训练集、验证集和测试集,比例为1.8:1:1 。
对于第二阶段,我们使用情感数据修剪方法来选择情感数据集[35]的一个子集。
对于评估,我们使用GPT-3 生成的句子创建两个测试集。第一组包含随机生成的句子,用于评估词错误率(WER)和字符错误率(CER)。第二组包含高情感内容丰富的句子,旨在评估模型的情感文本感知能力。
评估又包括了 客观评估 和主观评估。
对于客观评估
为了评估模型合成情感语音的能力,我们在情感TTS数据集上微调Wave2Vec2.0 [39] 训练了一个SER。我们使用GPT3 [14] 合成每个情绪类别(愤怒、快乐、中立、悲伤)的50个句子。我们使用训练好的SER评估模型从文本合成预期情感的能力。
对于主观评估
可以看到这两个折线图,只有这个模型是最接近真实值的。

引言

研究背景

  • 许多情感文本转语音(E-TTS)框架依赖于人工标注的情感标签,这些标签往往不准确且难以获取。
  • 情感韵律的学习具有挑战性,因为情感本身具有主观性。

研究目标

  • 提出一种无需明确情感标签或文本提示的新型E-TTS方法TEMOTTS。
  • 展示该方法在情感准确性和自然度方面的改进。

相关工作

减少情感标签使用的研究

  • 数据集标注成本高,限制了E-TTS研究的发展。
  • 半监督学习等方法被用于减少情感标签的数量。
  • 本文强调通过文本感知的方法来利用音频-文本对中的内在情感联系。

文本感知TTS

  • 探索利用文本学习韵律表示的研究,如TP-GST和MsEmoTTS。
  • 使用BERT等语言模型增强韵律建模和情感表示。
  • 最近的研究尝试减少风格文本输入和参考语音之间的模态差距。

TEMOTTS框架

在这里插入图片描述

阶段一:构建情感风格空间

  • 训练声学模块,包括文本编码器、方差适配器、解码器和GST网络。
  • GST网络由参考编码器和风格嵌入组成,用于为各种说话风格条件化TTS模型的编码器。
  • 模型隐式学习代表情感的说话风格。
    在这里插入图片描述

阶段二:使用语言模型探索风格空间

情感数据剪枝
  • 使用细调的DistilRoBERTa-base语言模型预测文本的情感类别概率。
  • 如果主导情感的概率超过阈值Pth,则将样本纳入训练数据集。
情感文本嵌入
  • 提取情感文本嵌入,使用均池化从细调的语言模型最后一层中获得。
适应模块
  • 建立文本情感上下文与语音情感韵律之间的情感关联。
  • 通过t-SNE可视化情感风格空间和情感文本嵌入空间的关系。
  • 引入适应模块,将情感文本嵌入映射到相应的情感风格表示。

推理阶段

  • 推理时仅需文本作为输入,生成情感文本嵌入。
  • 预测GST权重,访问由风格令牌构建的情感风格空间。
  • 合成文本感知的情感语音。
    -在这里插入图片描述

实验结果

在这里插入图片描述

客观评估

  • 计算CER和WER以评估合成语音的可理解性。
  • 使用SER评估模型合成预期情感的能力。
  • 结果显示,TEMOTTS在情感准确性和表达能力上优于基线模型。
    在这里插入图片描述

主观评估

在这里插入图片描述

  • 进行听觉实验评估语音质量和合成文本感知情感语音的能力。
  • MOS评估表明,TEMOTTS在自然度方面表现更好。
  • BWS测试显示,TEMOTTS在合成文本-情感准确性方面表现最佳。

结论

  • TEMOTTS克服了人工标注情感标签和情感韵律学习复杂性的挑战。
  • 利用文本感知获取情感风格,消除了训练时对明确情感标签的需求和推理时的辅助输入。
  • 实验展示了在情感准确性、自然度和可理解性方面的显著改进。

http://www.ppmy.cn/news/1572007.html

相关文章

【AI论文】10亿参数大语言模型能超越405亿参数大语言模型吗?重新思考测试时计算最优缩放

摘要:测试时缩放(Test-Time Scaling,TTS)是一种通过在推理阶段使用额外计算来提高大语言模型(LLMs)性能的重要方法。然而,目前的研究并未系统地分析策略模型、过程奖励模型(Process …

Hyper-V管理器连接服务器提示你没有完成此任务所需的权限

Hyper-V管理器连接服务器(已经配置了winrm TrustedHosts) 提示报错: 尝试连接到服务器”192.168..."时出错。请检查虚拟机管理服务是否正在运行以及是否授权你连接到此服务器。 你没有完成此任务所需的权限。请与计算机”192.168...&…

如何使用deepseek等AI工具辅助web后端工作的开发

使用DeepSeek等AI工具辅助Web后端开发可以显著提升效率,以下是具体应用场景和操作指南: 一、核心开发场景 代码生成与补全示例场景:快速生成CRUD接口 操作:输入提示词 用Node.js Express框架编写用户管理模块,要求: - RESTful API设计 - 包含创建/查询/更新/删除接口 - …

MySQL调用存储过程和存储函数

【图书推荐】《MySQL 9从入门到性能优化(视频教学版)》-CSDN博客 《MySQL 9从入门到性能优化(视频教学版)(数据库技术丛书)》(王英英)【摘要 书评 试读】- 京东图书 (jd.com) MySQL9数据库技术_夏天又到了…

【计算机毕业设计】Spring Boot教师人事档案管理系统功能说明

🎉**欢迎来到琛哥的技术世界!**🎉 📘 博主小档案: 琛哥,一名来自世界500强的资深程序猿,毕业于国内知名985高校。 🔧 技术专长: 琛哥在深度学习任务中展现出卓越的能力&a…

路由过滤方法与常用工具

引言 在前面我们已经学习了路由引入,接下来我们就更进一步来学习路由过滤 前一篇文章:重发布:路由引入(点击即可) 路由过滤 定义:路由器在发布或者接收消息时,可能需要对路由信息进行过滤。 作用…

Linux探秘坊-------7.进程概念

1.进程概念 1.冯诺依曼体系结构 输⼊单元:包括键盘,⿏标,扫描仪,写板等中央处理器(CPU):含有运算器和控制器等输出单元:显⽰器,打印机等这⾥的存储器指的是内存 ⼀句话,所有设备都 只能直接和内存打交道。…

【力扣题解】【76. 最小覆盖子串】容易理解版

76. 最小覆盖子串 总结和复盘 这是时隔1年4个月之后,再次写的题解,比第一次要清晰很多。 我刚开始,就是用方法一做的,提交之后报超出内存限制; 对方法一进行优化,得到方法二,提交之后就AC了。…