检信智能ALLEMOTION OS 语义文本情感识别原理
日期:2021.09.20   来源:湖南检信智能
检信ALLEMOTION

检信智能ALLEMOTION OS 语义文本情感识别原理

首先,当然是文本预处理

输入文本,在将输入文本转化成向量之前,我们需要将标点符号、括号、问号等删去,只留下字母、数字和字符, 同时将大写字母转化为小写,去除停用词。

效果如下图

 image.png

 

然后就是将文本转化为词向量(即汉字要转化为计算机能识别的数字类(矩阵啥的))

在将深度学习运用于文本情感分析的过程中,我们需要考虑网络模型的输入数据的形式。在其他例子中,卷积神经网络(CNN)使用像素值作为输入,logistic回归使用一些可以量化的特征值作为输入,强化学习模型使用奖励信号来进行更新。通常的输入数据是需要被标记的标量值。当我们处理文本任务时,可能会想到利用这样的数据管道。

 image.png

但是,这样的处理方式存在着很多问题。我们不能像点积或者反向传播那样在一个字符串上执行普通的运算操作。所以在这里我们不能将字符串作为输入,而是需要将文本转换成计算机可识别的格式,由于计算机只能识别数字,因此我们可以将文本中的每一个词都转化为一个向量,也称作词向量。词向量是用一个向量的形式表示文本中的一个词,通过这种转化方式就能采用机器学习来把任何输入量化成我们需要的数值表示,然后就可以充分利用计算机的计算能力,计算得出最终想要的结果,保证了操作的可行性。

 image.png

 

如图所示,我们可以将上面的这段文本输入数据转化成一个 16*D 的输入矩阵。

 image.png

我们希望创建这种词向量的方式是可以表示单词及其在上下文中意义的。例如,我们希望单词 love” 和 “adore” 这两个词在向量空间中是有一定的相关性的,因为他们的意思相似,而且都在类似的上下文中使用,因此他们的空间相距距离会相对较小。而“love”、“adore”这两个单词与单词“baseball”的意思有很大的不同,词性也不相同,那么“love”、“adore”这两个单词的向量与单词“baseball”的向量相距距离就会相对较大。单词的向量表示也被称之为词嵌入。

 image.png

 

特征提取:

 

为了得到这些词嵌入,我们采用一个很著名的模型 Word2Vec”。“Word2Vec”是近几年很火的算法,它通过神经网络机器学习算法来训练N-gram 语言模型,并在训练过程中求出word所对应的vector的方法。它是将词表征为实数值向量的一种高效的算法模型,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似。在这个模型中,每个词的词向量是根据上下文的语境来进行推断的,如果两个词在上下文的语境中可以被互换,那么这就表示这两个词的意思相似,词性相似,那么他们的词向量中相距距离就非常近。在自然语言中,上下文的语境对分析词语的意义是非常重要的。

 

简单来说,Word2Vec这个模型的作用就是从一大堆句子(以 Wikipedia 为例)中为每个独一无二的单词进行建模,并且输出一个唯一的向量,Word2Vec 模型的输出被称为一个嵌入矩阵。该嵌入矩阵将包含训练语料库中每个不同单词的向量。 传统上,嵌入矩阵可以包含超过300万个单词向量。

 

Word2Vec模型是通过对数据集中的每个句子进行训练,在其上滑动一个固定大小的窗口,并试图预测窗口的中心词,给出其他词。使用损失函数和优化程序,该模型为每个唯一字生成向量。这个训练过程的细节可能会变得有点复杂,所以我们现在要跳过细节,但这里主要的一点是,任何深度学习方法对于NLP任务的输入可能都会有单词向量作为输入。

 

后面特征提取这一块,应该会将用word2vec提取的方式改为用doc2vec来提取,不过具体修改时间待定,得看我啥时候能将这一操作学会(哈哈哒)

 

Google 已经帮助我们在大规模数据集上训练出来了 Word2Vec 模型,它包括 1000 亿个不同的词,在这个模型中,谷歌能创建300万个词向量,每个向量维度为 300。在理想情况下,我们将使用这些向量来构建模型,但是因为这个单词向量矩阵太大了(3.6G),因此在此次研究中我们将使用一个更加易于管理的矩阵,该矩阵由 GloVe 进行训练得到。矩阵将包含 400000 个词向量,每个向量的维数为 50

这里有用到一些.npy文件,是通过glove已经转好的,存为了npy文件。

 

我们将导入两个不同的数据结构,一个是包含 400000 个单词的 Python 列表,一个是包含所有单词向量值的 400000*50 维的嵌入矩阵。

结果对比:

 image.png

CNN网络层数包括:卷积层,池化层,全连接层。

 

CNN神经网络模型运用于文本情感分析时效果不如LSTM神经网络模型效果好,经典的CNN模型在文本情感分析正确率只有71.2%,而对经典进行改进之后,增加了卷积层和池化层,CNN模型的正确率得到了提高,但正确率也是只有77.25%,仍然比不上只用了一层LSTM网络的正确率高。从结果对比中我们可以知道,CNN不光可以应用于图像处理领域,也能成功有效地对文本信息进行分析,但LSTM在解决文本情感分析的问题时效果要比CNN好。

 

下面是一些运行结果:

训练数据集的结果

 image.png

…,训练了800多个数据,发现最高的时候准确率在百分之七十几,但是绝大多数稳定在百分之五十左右,这个准确度还是有点低的,后面加强学习,改进代码,应该可以将准确度提高。(方法推荐:改改epoch可能会提高准确度,模型收敛+准确率)

 

输出词列表的长度,词向量的维数

 image.png

 

维度的个数

 image.png

这个项目采用的数据集是IMDB数据集,这个数据集是一个关于电影评论的数据集,在这个数据集上做训练和测试。这个数据集包含 25000 条电影数据,其中 12500 条正向数据,12500 条负向数据。将其中的23000个文本评论作为训练集,将剩下的2000个文本评论作为测试集。

 

下面为正面评价文本和负面评价文本示例

image.png

 

总结:

CNNLSTM两种神经网络模型应用到了文本情感分析的问题当中,使用Word2Vec模型及它的子矩阵GloVe来将文本信息进行预处理,转换成了词向量及向量矩阵,使用了IMDB数据集来对模型进行训练,并用TensorFlow进行建模、训练。

版权声明:本文为CSDN博主「醒了的追梦人」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。


相关推荐
  • 检信智能致一年级家长,孩子需要情绪启蒙教育
    检信智能致一年级家长,孩子必须了解情绪启蒙教育 小学一年级是孩子情感认知发展的重要阶段,他们必须懂得以下心理情绪内容:一、认识基本情绪1. 快乐:当孩子做游戏、得到表扬或与朋友玩耍时,他们会感到快乐。要教会他们识别并分享这种美好的感受。2. 悲伤:失去心爱的玩具或与朋友发生争执时,孩子可能会感到难过。要教会他们用语言来表达这种情绪,并学会安慰自己。3. 生气:当需求得不到满足或被误解时,孩子可能会生气。要教育他们用合适的方式表达愤怒,如告诉他们生气时可以暂时离开现场冷静一下。二、理解情绪的表达1. 面部表情:教会孩子识别不同的面部表情,如微笑、哭泣、生气等,帮助他们理解情绪可以通过面部表情来表达。2. 语言表达:鼓励孩子用语言来描述自己的感受,这有助于他们更好地理解和管理自己的情绪。三、情绪管理技巧1. 深呼吸与放松:当孩子感到紧张或不安时,教他们进行深呼吸和放松技巧,帮助他们平静下来。2. 分享与倾听:鼓励孩子与家长、老师或朋友分享自己的情绪,同时也要学会倾听他人的感受。3. 寻求帮助:教育孩子在遇到难以处理的问题时,要勇敢地向家长或老师寻求帮助。四、培养积极情绪1. 鼓励与表扬:家长和老师要经常给予孩子鼓励和表扬,让他们体验到成功的喜悦和自信。2. 培养兴趣爱好:鼓励孩子参加各种活动,培养他们的兴趣爱好,让他们在快乐中成长。3. 学会感恩:教育孩子珍惜身边的人和事,学会感恩,从而培养积极向上的心态。通过以上内容的学习,小学一年级的孩子将能够更好地理解和管理自己的情绪,提高情感认知能力,为未来的成长打下坚实的基础。
    2024-09-09
  • 检信智能荣誉刊文-入库国人荣誉奖库
    检信智能荣誉刊文-入库国人荣誉奖库 2024年5月29日,检信智能荣获第二十三届中国科学家论坛科技创新优秀(发明)成果荣誉称号的荣誉刊文,入库国人荣誉奖库。 在2024年5月25日-26日于北京会议中心举办的第二十三届中国科学家论坛上,备受瞩目的检信智能非接触式心理参数智能分析与测评系统发明专利凭借其心理情绪数字化的发明创新成果,荣获了第二十三届中国科学家论坛科技创新优秀(发明)成果称号。这一荣誉是对检信智能八年来一直坚持在心理情绪识别领域内的贡献以及检信智能在数字心理健康领域卓越成就的一种肯定。 从2016年成立起,检信智能作为我国心理情绪数字化领域的国家高新技术企业,检信智能创始人李剑峰在中国人民公安大学武伯欣教授心测理论的指导下,一直坚持不懈地从事心理情绪数字化的研究开发工作,采用LSTM时序神经网络模型,在2017实现了我国自主知识产权的首套语音心理情绪分析系统的上市,并在山东诸城市检察院的首次应用。检信智能在2018年到2019年开发人脸表情识别、面帧情绪识别、以及眼动轨迹识别等,多维度心理情绪识别不断地取得卓越的成绩。 检信智能在本次第二十三届中国科学家论坛收获不仅是获奖的一种荣誉,由于心理健康监测涉及到不同行业不同领域的各个企事业单位、教育、部队等,因此参会3000多家企业通过对检信智能AI心理情绪技术的了解,很多企业纷纷表达了对该技术在不同行业应用的需求。例如产品销售代理、系统集成,开放API接口等合作模式。未来检信会再接再励,继续研发,为提供全方位多层次的有效解决方 案,为国家打造全民健康、自信社会的发展目标而不断努力前行。
    2024-08-27
  • 检信AI心理健康与职业能力测评系统V3.0——获得计算机软件著作权登记证书
    检信AI心理健康与职业能力测评系统V3.0--获得计算机软件著作权登记证书 2024.7月,我司的检信AI心理健康与职业能力测评系统V3.0获得计算机软件著作权登记证书。 湖南检信智能科技有限公司,成立于2016年,是一家专注于心理情绪情感算法及应用开发的人工智能型企业,核心开发团队具有清华大学、国防科技大学教育背景,运用“语 音情绪识别,人脸表情识别,面筛情绪识别,眼动情绪识别”等核心自主知识产权技术,结合湘雅医学院心理专家团队提供心理情绪分类模型为基础,首创检信 Allemotion 心理情绪监测平台,应用开发的主导产品有多维度心理情绪测评系统 岗前安全评测系统和心理意图分析系统。 检信智能截止目前已累计申请20个发明专利,其中有效发明专利7个,有效实用新型1个,有效外观设计1个,软件著作权6个,当前在天眼查及企查查排名等级卓越,科创分97分,在软件和信息技术服务业超过99%的同行企业,这是多方对我司的肯定,未来我们将继续以技术创新升级为核心,从优化产品组合,健全客户服务体系,提升公司运行效率,加大与友公司合作等方面着手,踔厉奋发、笃行不怠,积极推进接下来一年的工作,争取迈向新的台阶,取得新的成就。
    2024-08-08