检信智能ALLEMOTION OS 语音情感识别——语音(声音的预处理)
日期:2021.09.20   来源:湖南检信智能
检信ALLEMOTION

检信智能ALLEMOTION OS 语音情感识别——语音(声音的预处理)

IPAD.jpg

1. 语音信号(声音是什么)

声音是由物体振动产生的声波,是通过介质(空气或固体、液体)传播并能被人或动物听觉器官所感知的波动现象,最初发出振动的物体叫声源。声音(语音消息)的基本模拟形式是一种称为语音信号的声学波。语音信号可以通过麦克风转化成电信号,转换成语音波形图,如下图为消息"should we chase"的波形图。横坐标表示时间,纵坐标表示振幅。文本"should we chase"按照发音可以表示成音素的形式[SH UH D - W IY - CH EY S],声波图中的每一段表示一个音素,在ARBAbet音素集中包含近64 = 2^6个符号。


声音作为波的一种,频率(声源在一秒内振动的次数)和振幅是描述波的重要属性,频率的大小与我们通常所说的音高对应,而振幅影响声音的大小。声音可以被分解为不同频率不同强度正弦波的叠加,正弦波是频率成分最为单一的一种信号,任何复杂信号都可以看成由许许多多频率不同、大小不等的正弦波复合而成。这种变换(或分解)的过程,称为傅立叶变换,通过这种分解我们可以把时域图转为频域图。


正弦信号表达式为y=Asin(ωx+φ)y=Asin⁡(ωx+φ)。其中A表示振幅。

ω/2πω/2π表示频率。

对于(空气中的)声振动而言,振幅是声压与静止压强之差的最大值。其中声压是声波在空气中传播时形成压缩和稀疏交替变化的压力增值。麦克风录制声音的原理就是将空气中的压力变动波转化成电信号的变动。


而我们平常说的声音强度(响亮程度)就是由振幅决定的,声音强度的单位是分贝(dB),计算公式如下,用实测声压和参考声压之比的常用对数(常用对数lg以10为底,自然对数ln以e为底)的20倍来表示。下式中分母是参考值的声压,通常为20微帕,人类能听到的最小声压。

分贝表示功率量之比时,等于功率强度之比的常用对数的10倍。

分贝表示场量之比时,等于场强幅值之比的常用对数的20倍。

语音链(声音是怎么发出的)

从语音信号的产生到感知的过程称为语音链,如下图所示:

2 下面是语音信号产生的四个步骤:

文本:消息以某种形式出现在说话者的大脑中,消息携带的信息可认为有着不同的表示形式,例如最初可能以英语文本的形式表示。假设书面语有32个符号,也就是2^5,用5个bit表示一个符号。正常的平均说话速率为15个符号每秒。上图例子中有15个字母“should we chase”,持续了0.6秒,信息流的速率为15x5/0.6 = 125 bps。

音素:为了"说出"这条消息,说话者隐式地将文本转换成对应口语形式的声音序列的符号表示,即文本符号转成音素符号,音素符号用来描述口语形式消息的基本声音及声音发生的方式(即语速和语调)。ARBAbet音素集中包含近64 = 2^6个符号,用6个bit表示一个音素,上图例子中有8个音素,持续了0.6秒,信息流的速率为8x6/0.6 = 80 bps,考虑描述信号韵律特征的额外信息(比如段长,音高,响度),文本信息编码成语音信号后,总信息速率需要再加上100bps。

发音:神经肌肉系统以一种与产生口语形式消息及其语调相一致的方式,移动舌头,唇,牙齿,颌,软腭,使这些声道发声器官按规定的方式移动,进而发出期望的声音。

刺激共振:声道系统产生物理生源和恰当的时变声道形状,产生上图所示的声学波形。

前两个阶段的信息表示是离散的,用一些简单假设就可以估计信息流的速率。

但是后两个阶段信息是连续的,以关节运动的形式发出,想要度量这些连续信息,需要进行恰当的采样和量化获得等效的数字信号,才能估计出数据的速率。事实上,因为连续的模拟信号容易收到噪声的影响,抗噪能力弱,通常会转为离散的数字信号。

在第三阶段,进行采样和量化后得到的数据率约为2000bps。

在最后一个阶段,数字语音波形的数据率可以从64kbps变化到700kbps。该数据是通过测量“表示语音信号时为达到想要的感知保真度”所需要的采样率和量化计算得到的。

比如,“电话质量”的语音处理需要保证宽带为0~4kHz,这意味着采样率为8000个样本每秒(根据香农采样定理,为了不失真地恢复模拟信号,采样频率应该不小于模拟信号频谱中最高频率的2倍),每个样本可以量化成8比特,从而得到数据率64000bps。这种表示方式很容易听懂,但对于大多数倾听者来说,语音听起来与说话者发出的原始语音会有不同。

另一方面,语音波形可以表示成“CD质量”,采用44100个样本每秒的采样率,每个样本16比特,总数据率为705600bps,此时复原的声学波听起来和原始信号几乎没有区别。

现在在音乐app上下载歌曲的时一般有四种音乐品质选择,标准(128kbps),较高(192kbps),极高(320kbps),无损品质。


将消息从文本表示转换成采样的语音波形时,数据率会增大10000倍。这些额外信息的一部分能够代表说话者的一些特征比如情绪状态,说话习惯等,但主要是由简单采样和对模拟信号进行精细量化的低效性导致的。因此,处于语音信号固有的低信息速率考虑,很多数字语音处理的重点是用更低的数据率对语音进行数字表示(通常希望数据率越低越好,同时保证重现语音信号的感知质量满足需要的水平)。


3 语音信号中的Analog-Digital Converter,“模-数”变换(声音是怎么保存的)

预滤波(反混叠滤波):语音信号在采样之前要进行预滤波处理。目的有两个,一是抑制输入信号各频率分量中频率超过fs/2的所有分量(fs为采样频率),以防止混叠干扰;二是抑制50Hz的电源工频干扰。


1.采样:原始的语音信号是连续的模拟信号,需要对语音进行采样,转化为时间轴上离散的数据。

采样后,模拟信号被等间隔地取样,这时信号在时间上就不再连续了,但在幅度上还是连续的。经过采样处理之后,模拟信号变成了离散时间信号。

采样频率是指一秒钟内对声音信号的采样次数,采样频率越高声音的还原就越真实越自然。

在当今的主流采集卡上,采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级,22.05KHz只能达到FM广播的声音品质,44.1KHz则是理论上的CD音质界限(人耳一般可以感觉到20-20K Hz的声音,根据香农采样定理,采样频率应该不小于最高频率的两倍,所以40KHz是能够将人耳听见的声音进行很好的还原的一个数值,于是CD公司把采样率定为44.1KHz),48KHz则更加精确一些。

对于高于48KHz的采样频率人耳已无法辨别出来了,所以在电脑上没有多少使用价值。

2.量化:进行分级量化,将信号采样的幅度划分成几个区段,把落在某区段的采样到的样品值归成一类,并给出相应的量化值。根据量化间隔是否均匀划分,又分为均匀量化和非均匀量化。

均匀量化的特点为“大信号的信噪比大,小信号的信噪比小”。缺点为“为了保证信噪比要求,编码位数必须足够大,但是这样导致了信道利用率低,如果减少编码位数又不能满足信噪比的要求”(根据信噪比公式,编码位数越大,信噪比越大,通信质量越好)。

通常对语音信号采用非均匀量化,基本方法是对大信号使用大的量化间隔,对小信号使用小的量化间隔。由于小信号时量化间隔变小,其相应的量化噪声功率也减小(根据量化噪声功率公式),从而使小信号时的量化信噪比增大,改善了小信号时的信噪比。

量化后,信号不仅在时间上不再连续,在幅度上也不连续了。经过量化处理之后,离散时间信号变成了数字信号。


3.编码:在量化之后信号已经变成了数字信号,需要将数字信号编码成二进制。“CD质量”的语音采用44100个样本每秒的采样率,每个样本16比特,这个16比特就是编码的位数。

采样,量化,编码的过程称为A/D转换,如下图所示。反过程为D/A转换,因为A/D之前进行了预滤波,D/A转换后面还需要加一个平滑滤波器。A/D转换,D/A转换,滤波这些功能都可以用一块芯片来完成,在市面上能买到各种这样的芯片。


4 语音信号的预处理(声音的预处理)

语音信号的预处理一般包括预加重,分帧,加窗,端点检测。

预加重:求语音信号频谱(频谱是指时域信号在频域下的表示方式,关于频域和时域的理解如下图所示),频率越高相应的成分越小,高频部分的频谱比低频部分的难求,为此要在预处理中进行预加重(Pre-emphasis)处理。预加重的目的是提高高频部分,使信号的频谱变得平坦,以便于频谱分析或者声道参数分析。预加重可在语音信号数字化时在反混叠滤波器之前进行,但一般是在语音信号数字化之后。

短时分析:语音信号从整体来看是随时间变化的,是一个非平稳过程,不能用处理平稳信号的数字信号处理技术对其进行分析处理。但是,由于不同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应,这种运动对于语音频率来说是非常缓慢的,所以从另一方面看,虽然语音信号具有时变特性,但是在一个短时间范围内(一般认为在10-30ms)其特性基本保持相对稳定,即语音具有短时平稳性。所以任何语音信号的分析和处理必须建立在“短时”的基础上,即进行“短时分析”。

分帧:为了进行短时分析,将语音信号分为一段一段,其中每一段称为一帧,一般取10-30ms,为了使帧与帧之间平滑过渡,保持连续性,使用交叠分段的方法,可以想成一个指针p从头开始,截取一段头为p,长度为帧长的片段,然后指针p移动,移动的步长就称为帧移,每移动一次都截取一段,这样就得到很多帧。

加窗:加窗就是用一定的窗函数w(n)来乘s(n),从而形成加窗语音信号sw(n)=s(n)∗w(n),常用的窗函数是矩形窗和汉明窗,用矩形窗其实就是不加窗,窗函数中有个N,指的是窗口长度(样本点个数),对应一帧,通常在8kHz取样频率下,N折中选择为80-160(即10-20ms持续时间)。

端点检测:从一段语音信号中准确地找出语音信号的起始点和结束点,它的目的是为了使有效的语音信号和无用的噪声信号得以分离。对于一些公共的语音数据集可以不做这步操作,因为这些语音的内容就是有效的语音信号(可以认为研究人员已经对数据做过端点检测)。

语音信号的特征(声音的特征)

特征的选取是语音处理的关键问题,特征的好坏直接影响到语音处理(比如语音识别)的精度。然而在语音领域中,没有一个所谓的标准特征集,不同的语音系统选取的特征组合不尽相同。


语音的特征一般是由信号处理专家定义的,比较流行的特征是MFCC(梅尔频率倒谱系数)。

5 语音情感识别算法

常用的机器学习分类器:模式识别领域的诸多算法(传统)都曾用于语音情感识别的研究,比如GMM(高斯混合模型),SVM,KNN,HMM(隐马尔可夫模型)。用LLDs(low level descriptors)和HSFs(high level statistics functions)这些手工设计特征去训练。

声谱图+CRNN:最近很多人用声谱图加上CNN,LSTM这些深度学习模型来做。还有手工特征加声谱图一起作为特征放进深度学习模型。也有人用DBN,但是不多。

3.手工特征+CRNN:也有人用手工特征加CRNN做。

————————————————

版权声明:本文为CSDN博主「醒了的追梦人」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。



相关推荐
  • 检信智能圆满完成第84届中国教育装备展示会的参展工作
    检信智能圆满完成第84届中国教育装备展示会的参展工作 第84届中国教育装备展示会于2024年10月25日至27日在昆明滇池国际会展中心举办,本次展示会全面展示了科技创新成果在学前教育、基础教育、职业教育、特殊教育和高等教育领域的应用,包括实验室设备、信息化设备及教学软件、功能/学科教室设备,AI心理测评、音体美设备等,涵盖教育领域各个应用场景。参展的国家级高新技术企业有255家,占参展企业总数的33%。 检信ALLEMOTION 多维度心理情绪测评系统依托机器红外视觉识别技术采集人脸视频数据,结合心理计算大模型及深度学习神经网络架构,预测筛查学生心理健康预警及建立学生心理健康档案管理系统。通过本次展会与广大客户群体深入交流学习,获得了很多用户意见及认同,对我们检信品牌AI心理情绪识别具有很大的价值与作用。 湖南检信智能科技有限公司成立于2016年,是一家专注于语音情绪识别,人脸表情识别,面筛情绪识别,眼动情绪识别等核心自主知识产权技术开发的人工智能型企业,并结合湘雅医学院心理专家团队心理情绪分类模型,首创检信 Allemotion OS心理情绪开发平台, 应用开发有多维度AI心理测评系统、岗前安全评测系统和心理意图分析系统等主导产品。 检信智能聚焦于心理情绪技术的开发与应用,经过8年的企业创新发展历程,累计申请国家发明专利17项,2019年获得武器装备质量管理体系认证,2021年获得国防科大国科平台优秀创新奖,2022年非接触式无创伤心理情绪监测核心技术荣获国家科技部发明创新创业成果二等奖,2023年荣获国家高新技术企业。
    2024-10-31
  • 中国心理学会心理测量专业委员会2024年学术年会第一轮通知
    中国心理学会心理测量专业委员会2024年学术年会第一轮通知心理测量专委会中国心理学会2024年10月21日 09:01北京在人工智能时代,心理测量与测验领域历经了显著的变革和发展。人工智能技术(如机器学习、大数据分析等)已经被广泛用于心理测量指标的开发、心理测验工具的研制及优化。人工智能在心理测量与测验领域的应用,不仅提高了心理测量与测验的准确性和效率,还为心理测量与测验的创新和转型提供了新的可能性。中国心理学会心理测量专业委员会2024年学术年会定于2024年12月13日至12月15日在贵州省贵阳市召开。本次学术年会的主题为“人工智能时代的心理测量与测验”,会议将重点探讨人工智能时代下心理测量与测验的新趋势、新动向和新发展。大会将邀请心理学、教育学、统计学、计算机科学等领域的专家做大会主旨报告,系统介绍心理测量与测验的前沿方法、技术及应用成果。热忱欢迎各位学界同仁和研究生前来参会。一会议主题人工智能时代的心理测量与测验二会议组织机构主办单位:中国心理学会心理测量专业委员会、贵州师范大学承办单位:贵州师范大学心理学院协办单位:凯里学院、贵州省社会心理学学会顾问:车宏生、余嘉元、戴海琦大会主席:赵守盈学术委员会:张敏强(主任)、甘怡群(副主任)、董圣鸿、傅根跃、王力、黎坚、曾平飞、涂东波、骆方组织委员会:方平(主任)、徐建平(副主任)、罗峥、卞冉、陈海平、程超、杜林致、李英武、李中权、彭恒利、孙健敏、董长江、王蕾、肖玮、谢晶、闫巩固、张颖执行委员会:罗禹(主任)、陈维、罗杰、程刚、曾练平、高旭亮、刘国庆、赵鹏娟、许爽、裴子钊、姚成奎三会议时间、地点和日程安排1.会议时间:2024年12月13日至12月15日。13日全天报到,14-15日正式会议。2.会议地点:贵州省贵安新区花溪大学城贵州师范大学东校区。3.会议日程:日程安排简表见附件,具体日程在第二轮通知中公布。四论文投稿本次年会设主旨报告、分组报告、研究生论坛等环节,欢迎国内外专家学者、同学及各界人士踊跃投稿。1.投稿截止日期:2024年11月30日。2.投稿提交方式:会议摘要请发送至邮箱psychometric2024@163.com。提交时邮件主题及投稿文档请命名为“×××(第一作者姓名)参加心理测量专业委员会2024年学术会议摘要”。3.摘要写作格式要求如下:(1)语言为中文或英文,中文用宋体小四号字,1.5倍行距;英文用Time New Roman 字体小四号字,不超过800字。1.5倍行距。(2)论文摘要内容要求包括论文题目、作者姓名、作者单位全称、电子邮箱地址、联系电话、摘要全文(其中,关键词3~6个,之间用逗号分开)。五会议注册缴费1.会议注册费标准:参会代表1000元,中国心理学会在册普通会员800元,在读全日制学生(凭学生证)500元,中国心理学会在册学生会员400元。2.本次会议由中国心理学会收费并开具发票,具体缴纳方式在第二轮通知中公布。3.参会代表在会议期间的交通费和住宿费均自理。六参展单位邀请诚邀相关学术界与产业界人士参加本次会议,热忱欢迎相关企业和研发机构参会,共同推动心理测量与测验的研究及应用发展。请有意参展的单位于12月6日前发送邮件至psychoassessment@163.com或联系罗老师(电话:18786670954),邮件主题“心理测量与测验年会参展”,请附单位基本情况介绍、相关业务说明等。七会务组联系方式陈维(贵州师范大学),15285959353罗杰(贵州师范大学),18786670954罗峥(专委会秘书处),13661135915中国心理学会心理测量专业委员会贵州师范大学2024年10月21日
    2024-10-21
  • 中国心理学会眼动心理研究专业委员会2024年学术年会第一轮通知
    中国心理学会眼动心理研究专业委员会2024年学术年会第一轮通知眼动心理专委会中国心理学会2024年10月20日 09:02北京中国心理学会眼动心理研究专业委员会2024年学术年会拟于2024年12月21日-22日在河南新乡举行。本次会议由中国心理学会眼动心理研究专业委员会主办,由河南师范大学教育学部承办,河南省心理学会、河南大学心理学院、信阳师范大学教育科学学院心理学系协办。诚挚邀请眼动研究相关领域的科研工作者及社会各界人士参加本次大会。一、会议主题数智时代眼动追踪助力教育强国建设二、会议组织机构主办单位:中国心理学会眼动心理研究专业委员会承办单位:河南师范大学教育学部协办单位:河南省心理学会、河南大学心理学院、信阳师范大学教育科学学院心理学系主 席:白学军(中国心理学会眼动心理研究专业委员会主任)副主席:陈庆荣(中国心理学会眼动心理研究专业委员会副主任)马国杰(中国心理学会眼动心理研究专业委员会副主任)闫国利(中国心理学会眼动心理研究专业委员会副主任)秘 书:张慢慢学术委员会(按姓氏拼音排序):陈黎静、陈栩茜、陈中廷、崔磊、丁锦红、高晓雷、高笑、高在峰、谷璜、顾俊娟、韩海宾、侯友、胡笑羽、贾磊、贾宁、江新、姜英杰、康廷虎、李兴珊、梁菲菲、梁竹苑、林楠、刘萍萍、鹿士义、彭微微、屈青青、申薇、隋雪、谭滢滢、仝文、王福兴、王敬欣、魏玲、闻素霞、吴岩、熊建萍、杨海波、杨锦绵、药盼盼、臧传丽、张锦坤、张慢慢、张运红、周钧毅、周蕾会议筹备组:罗红艳(组长)、陈勇(组长)、苗学杰、康淑霞、肖广军、衡书鹏、刘小先、全金梁、张晓阳、熊建萍、孙文梅、张振、张炀、张利会、党清秀、李双双、张瑞、李云云等三、会议时间、地点及日程安排1.会议时间:2024年12月21日至12月22日2.会议地点:河南师范大学(河南省新乡市建设东路46号)3.主要日程:12月20日,全天报到。12月21-22日,开幕式、大会报告、分组报告、闭幕式。四、会议征稿1.征文主题本次会议征文涉及借助眼动技术开展的相关研究,主题涵盖但不限于眼动控制机制、语言加工、场景知觉、社会发展、跨文化研究、特殊群体发展、人因工程、广告/消费心理、驾驶行为和运动心理等。邀请国内外专家学者分享最新的研究成果,共同研讨如何采用眼动追踪技术进行理论与行为研究。2.投稿要求本次会议将设主题报告、分组报告等学术交流环节,欢迎专家学者、老师、同学及各界人士踊跃投稿。会议摘要以电子文稿形式提交,具体写作格式要求如下:(1)会议摘要语言为中文或英文,以Microsoft Word编辑。中文用宋体5号字,不超过800字。英文用Times New Roman字体5号字,不超过800字。单倍行距。(2)摘要内容要求包括:摘要题目、作者姓名、作者通讯地址(含单位全称、院系部门、所在城市、邮政编码)、电子邮箱地址、联系电话、摘要全文(其中,关键词3至6个,之间用逗号分开)。扫描下方二维码查看摘要格式。请将论文摘要电子word文档发至会务组专用邮箱hnupsycho@126.com。邮件主题及投稿文档命名为“×××(第一作者姓名)参加眼动专委会2024学术会议摘要”等字样。投稿截止日期:2024年12月10日。3.欢迎专家学者组织会前/会后工作坊,有意组织工作坊的老师请与会务组联系商议。五、会务事项1.参会人员欢迎中国心理学会眼动心理研究专业委员会委员、中国心理学会其他分支机构的专家学者、高等院校和研究机构的教师、研究生以及社会各界人士等参会。2.注册缴费(1)会议注册费标准:中国心理学会在册普通会员1000元,非中国心理学会会员1200元,中国心理学会在册学生会员500元,在读全日制学生(凭学生证)600元。(2)本次会议由中国心理学会收费并开具发票,缴费方式详见第二轮通知。(3)参会者会议期间的往返交通费和住宿费自理。六、会务组联系方式联系人:刘小先(河南师范大学),13569853542张振(河南师范大学),17737355922张炀(河南师范大学),17537417138联系邮箱:hnupsycho@126.com中国心理学会眼动心理研究专业委员会2024年10月20日
    2024-10-21