亚马逊Alexa AI通过语音分析情绪

日期：2020.01.02 来源：湖南检信智能

亚马逊的Alexa AI团队目前正在尝试探测幸福和悲伤等情绪的方法，这些工作已于今年早些时候在研究中发表。据彭博社报道，亚马逊正在开发一种用于情绪检测的可穿戴设备，人们可以用它来了解周围人的感受。

该项目已经开展多年了，在2017年，亚马逊已经开始探索情绪识别AI，但只能感知用户的声音中的沮丧，“谈论它将如何应用还为时过早，我们已经在线下探索如何使用它进行数据选择，但是在这一点上没有任何内容可以分享。”

模型如何运作

亚马逊对情绪检测的野心在最近几个月发表的两篇论文中可见一斑。两个项目都使用南加州大学（USC）的数据集训练模型，这些数据集包括演员约12小时的对话。然后注释10000个句子的数据集以反映情绪。

“Multimodal and Multi-view Models for Emotion Recognition”检测到六大情绪：愤怒，厌恶，恐惧，快乐，悲伤和惊讶。

情绪可以通过三个维度的数值直接描述：效价，即谈论情绪的积极性或消极性，激活水平，这是情绪的能量，然后是支配、控制的影响。

多模式方法分析来自音频的声学和词汇信号，以检测情绪。亚马逊Alexa高级应用科学家Viktor Rozgic解释说，声学研究语音和语音特性，词汇研究单词序列。

Wang表示，“声学特征或多或少地描述了你如何说话的风格，而词汇特征正在描述内容。如示例所示，它们对于情感联系都很重要。因此，在提取特征之后，它们被输入模型，在我们的例子中，这将是不同的神经网络架构，然后最终做出预测，在这种情况下是愤怒，悲伤和中性情绪状态。”

亚马逊最近分享的另一篇论文“Improving Emotion Classification through Variational Inference of Latent Variables”解释了一种实现微观改善效果以预测情绪的方法。

为了从音频记录中提取情感，将语音记录中的人类交互映射到一系列光谱向量，馈送到递归神经网络，然后用作分类器来预测愤怒，快乐，悲伤和中性状态。

“我们正在将声学特征提供给编码器，编码器正在将这些特征转换为较低维度的表示，解码器可以重建原始音频特征并预测情绪状态，”Rozgic说，“在这种情况下，它的价值有三个层次：消极，中立和积极，而对抗性学习的作用是以特定的方式规范学习过程，使学习的表现更好。”

情绪和机器智能

除了提供有关亚马逊情绪检测野心的详细信息外，re：Mars的一次会议探讨了情绪识别和情绪表征理论的历史，机器学习，信号处理和支持向量机等分类器的进步也推动了工作的进展。

该技术的应用范围从测量反应到视频游戏设计，商业广告等营销材料，寻找道路愤怒或疲劳的动力汽车安全系统，甚至帮助学生使用计算机辅助学习。该技术还可用于帮助人们更好地了解他人的情绪。

论文：

arxiv.org/abs/1906.10198

developer.amazon.com/zh/blogs/alexa/post/2d8c2128-eec9-44cc-9274-444940eb0a4d/using-adversarial-training-to-recognize-speakers-emotions

End