检信智能ALLEMOTION OS推荐免费下载的语音情感数据库
检信智能ALLEMOTION OS推荐免费下载的语音情感数据库
计算机对从传感器采集来的信号进行分析和处理,得出对方正处在的情感状态,这种行为叫作情感识别。
目前对于情感识别有两种方式,一种是检测生理信号如呼吸,心律和体温等,另一种是检测情感行为如面部表情识别,语音情感识别和姿态识别。
语音情感数据集是研究语音情感识别的重要基础,按照情感描述类型可将数据集分为离散情感数据库和维度情感数据库,前者以离散的语言标签(如高兴,悲伤等)作为情感标注,后者以连续的实数坐标值表示情感。
下面介绍一些离散语音情感数据集:
Belfast英语情感数据库:40位录音者(20男20女,18-69岁),对五个段落(每个段落7-8个句子)进行演讲录制,演讲者按照五种情感倾向进行演讲:生气(anger),悲伤(sadness),高兴(happiniess),害怕(fear),中性(neutral)。
柏林Emo-DB情感数据库:德国柏林工业大学录制,10位演员(5男5女),对10个德语语音进行表演,包含了七种情感:生气(anger),悲伤(sadness),高兴(happiniess),害怕(fear),中性(neutral),厌恶(disgust),无聊(boredom)。共包含800句语料(10 位演员 x10 句话 x7 种情感+100 条某些语句的二次版本),后经过筛选得到500多条,采样率为 48kHz (后压缩至 16kHz),16bit 量化。语料文本的选取遵从语义中性、无情感倾向的原则,且为日常口语化风格,无过多的书面语修饰。语音的录制在专业录音室中完成,要求演员在表演某个特定情感片段前通过回忆自身真实经历或体验进行情绪的酝酿,来增强情绪的真实感。
FAU AIBO儿童德语情感数据库:2009年在Interspeech会议上举办Emotion Challenge评比中指定的语音情感数据库。通过儿童与索尼公司的AIBO机器狗进行自然交互,从而进行情感数据的采集。说话人由51名儿童组成,年龄段为10-13岁,其中30个为女性。语料库包含9.2小时的语音,48401个单词。采样频率为48kHz(后压缩至 16kHz),16比特量化。该数据库中情感数据的自然度高,数据量足够大,是较为流行的一个语音情感数据库。
CASIA汉语情感数据库:中科院自动化所录制,两男两女录制500句不同的文本,通过演讲者不同的感情演讲得出,最后的语音又人工筛选,得到了大约9600条语句。分为六类情感。
ACCorpus系列汉语情感数据库:清华大学和中科院心理研究所合作录制,相对于CASIA录制工作者更多,代表性更强。包含如下 5 个相关子库:ACCorpus_MM 多模态、多通道的情感数据库;ACCorpus_SR 情感语音识别数据库;ACCorpus_SA 汉语普通话情感分析数据库;ACCorpus_FV 人脸表情视频数据库;ACCorpus_FI 人脸表情图像数据库。以 ACCorpus_SR 为例,该子库是由 50 位录音人(25 男25女)对 5类情感(中性、高兴、生气、恐惧和悲伤)各自表演得到,16kHz 采样,16bit 量化。
IEMOCAP: 南加利福尼亚大学录制的,10个演员,1男1女演绎一个session,共5个session。录制了将近12小时的数据,有视频,语音,人脸的变动捕捉和文本。包括即兴自发的和照着稿子念的。每个utterance至少三个人评估。包括9种情感(anger,happiness,excitement,sadness,frustration,fear,surprise,other和neural)的离散标签,以及三个维度的维度标签(valence, activation and dominance)。
————————————————
版权声明:本文为CSDN博主「醒了的追梦人」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_33472146/article/details/96433766