检信智能ALLEMOTION OS 语义文本情感识别原理
日期:2021.09.20   来源:湖南检信智能
检信ALLEMOTION

检信智能ALLEMOTION OS 语义文本情感识别原理

首先,当然是文本预处理

输入文本,在将输入文本转化成向量之前,我们需要将标点符号、括号、问号等删去,只留下字母、数字和字符, 同时将大写字母转化为小写,去除停用词。

效果如下图

 image.png

 

然后就是将文本转化为词向量(即汉字要转化为计算机能识别的数字类(矩阵啥的))

在将深度学习运用于文本情感分析的过程中,我们需要考虑网络模型的输入数据的形式。在其他例子中,卷积神经网络(CNN)使用像素值作为输入,logistic回归使用一些可以量化的特征值作为输入,强化学习模型使用奖励信号来进行更新。通常的输入数据是需要被标记的标量值。当我们处理文本任务时,可能会想到利用这样的数据管道。

 image.png

但是,这样的处理方式存在着很多问题。我们不能像点积或者反向传播那样在一个字符串上执行普通的运算操作。所以在这里我们不能将字符串作为输入,而是需要将文本转换成计算机可识别的格式,由于计算机只能识别数字,因此我们可以将文本中的每一个词都转化为一个向量,也称作词向量。词向量是用一个向量的形式表示文本中的一个词,通过这种转化方式就能采用机器学习来把任何输入量化成我们需要的数值表示,然后就可以充分利用计算机的计算能力,计算得出最终想要的结果,保证了操作的可行性。

 image.png

 

如图所示,我们可以将上面的这段文本输入数据转化成一个 16*D 的输入矩阵。

 image.png

我们希望创建这种词向量的方式是可以表示单词及其在上下文中意义的。例如,我们希望单词 love” 和 “adore” 这两个词在向量空间中是有一定的相关性的,因为他们的意思相似,而且都在类似的上下文中使用,因此他们的空间相距距离会相对较小。而“love”、“adore”这两个单词与单词“baseball”的意思有很大的不同,词性也不相同,那么“love”、“adore”这两个单词的向量与单词“baseball”的向量相距距离就会相对较大。单词的向量表示也被称之为词嵌入。

 image.png

 

特征提取:

 

为了得到这些词嵌入,我们采用一个很著名的模型 Word2Vec”。“Word2Vec”是近几年很火的算法,它通过神经网络机器学习算法来训练N-gram 语言模型,并在训练过程中求出word所对应的vector的方法。它是将词表征为实数值向量的一种高效的算法模型,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似。在这个模型中,每个词的词向量是根据上下文的语境来进行推断的,如果两个词在上下文的语境中可以被互换,那么这就表示这两个词的意思相似,词性相似,那么他们的词向量中相距距离就非常近。在自然语言中,上下文的语境对分析词语的意义是非常重要的。

 

简单来说,Word2Vec这个模型的作用就是从一大堆句子(以 Wikipedia 为例)中为每个独一无二的单词进行建模,并且输出一个唯一的向量,Word2Vec 模型的输出被称为一个嵌入矩阵。该嵌入矩阵将包含训练语料库中每个不同单词的向量。 传统上,嵌入矩阵可以包含超过300万个单词向量。

 

Word2Vec模型是通过对数据集中的每个句子进行训练,在其上滑动一个固定大小的窗口,并试图预测窗口的中心词,给出其他词。使用损失函数和优化程序,该模型为每个唯一字生成向量。这个训练过程的细节可能会变得有点复杂,所以我们现在要跳过细节,但这里主要的一点是,任何深度学习方法对于NLP任务的输入可能都会有单词向量作为输入。

 

后面特征提取这一块,应该会将用word2vec提取的方式改为用doc2vec来提取,不过具体修改时间待定,得看我啥时候能将这一操作学会(哈哈哒)

 

Google 已经帮助我们在大规模数据集上训练出来了 Word2Vec 模型,它包括 1000 亿个不同的词,在这个模型中,谷歌能创建300万个词向量,每个向量维度为 300。在理想情况下,我们将使用这些向量来构建模型,但是因为这个单词向量矩阵太大了(3.6G),因此在此次研究中我们将使用一个更加易于管理的矩阵,该矩阵由 GloVe 进行训练得到。矩阵将包含 400000 个词向量,每个向量的维数为 50

这里有用到一些.npy文件,是通过glove已经转好的,存为了npy文件。

 

我们将导入两个不同的数据结构,一个是包含 400000 个单词的 Python 列表,一个是包含所有单词向量值的 400000*50 维的嵌入矩阵。

结果对比:

 image.png

CNN网络层数包括:卷积层,池化层,全连接层。

 

CNN神经网络模型运用于文本情感分析时效果不如LSTM神经网络模型效果好,经典的CNN模型在文本情感分析正确率只有71.2%,而对经典进行改进之后,增加了卷积层和池化层,CNN模型的正确率得到了提高,但正确率也是只有77.25%,仍然比不上只用了一层LSTM网络的正确率高。从结果对比中我们可以知道,CNN不光可以应用于图像处理领域,也能成功有效地对文本信息进行分析,但LSTM在解决文本情感分析的问题时效果要比CNN好。

 

下面是一些运行结果:

训练数据集的结果

 image.png

…,训练了800多个数据,发现最高的时候准确率在百分之七十几,但是绝大多数稳定在百分之五十左右,这个准确度还是有点低的,后面加强学习,改进代码,应该可以将准确度提高。(方法推荐:改改epoch可能会提高准确度,模型收敛+准确率)

 

输出词列表的长度,词向量的维数

 image.png

 

维度的个数

 image.png

这个项目采用的数据集是IMDB数据集,这个数据集是一个关于电影评论的数据集,在这个数据集上做训练和测试。这个数据集包含 25000 条电影数据,其中 12500 条正向数据,12500 条负向数据。将其中的23000个文本评论作为训练集,将剩下的2000个文本评论作为测试集。

 

下面为正面评价文本和负面评价文本示例

image.png

 

总结:

CNNLSTM两种神经网络模型应用到了文本情感分析的问题当中,使用Word2Vec模型及它的子矩阵GloVe来将文本信息进行预处理,转换成了词向量及向量矩阵,使用了IMDB数据集来对模型进行训练,并用TensorFlow进行建模、训练。

版权声明:本文为CSDN博主「醒了的追梦人」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。


相关推荐
  • 检信智能多维度岗前安全返岗测评系统
    检信智能多维度岗前安全返岗测评系统 检信智能的多维度岗前安全返岗测评系统是一款基于心理行为分析、人工智能及大数据技术的智能化评估工具,检测项目包括心理健康,心率 血压,酒精,血氧,体温,主要用于对员工或特定岗位人员的心理健康、安全风险、职业适应性等进行综合评估,确保其符合返岗或上岗要求。以下是其核心功能、作用及典型应用场景:一、核心功能与作用多维度风险评估心理健康筛查:AI语音/表情分析等,评估焦虑、抑郁、创伤后应激障碍(PTSD)等心理状态。行为倾向分析:检测冲动性、攻击性、注意力缺陷等可能影响工作安全的潜在行为特征。职业适应性评估:匹配岗位需求(如高压环境、团队协作等),判断人员是否具备胜任能力。智能化技术应用AI情绪识别:通过语音语调、微表情、文字表述等非接触方式辅助判断心理状态。大数据比对:结合历史数据与行业基准,识别异常风险指标。动态监测与预警对高风险个体标记并生成干预建议(如心理咨询、暂缓返岗等)。长期跟踪人员心理状态变化,提供周期性复评功能。合规与效率优化生成标准化报告,满足企业或监管机构的合规要求(如安全生产、职业病防治等)。自动化流程减少人工评估成本,缩短评估周期。二、典型应用场景高风险行业岗前筛查能源/化工/制造业:预防因心理及生理健康问题导致的操作失误或安全事故。交通运输(司机、飞行员):确保从业人员情绪稳定、注意力集中和生理健康。特殊事件后返岗评估疫情/灾害后:评估员工因突发事件产生的心理创伤是否影响工作。工伤/事故涉及人员:判断其心理恢复状态能否重新上岗。敏感岗位人员管理安保、军警、保密岗位:筛查极端行为倾向或抗压能力不足的个体。医疗、教育行业:避免因职业倦怠或心理问题影响服务质量。企业常态化健康管理作为员工福利的一部分,定期心理评估并提供干预支持。结合EAP(员工援助计划)优化团队心理健康管理。三、优势与价值预防性管理:降低因人员心理问题引发的安全事故或效率损失。客观性:减少人工评估的主观偏差,数据驱动决策。可扩展性:支持定制化评估维度,适配不同行业需求。该系统尤其适用于对安全性和心理稳定性要求较高的领域,帮助企业实现从“被动应对”到“主动预防”的风险管控转型。
    2025-05-12
  • 2025湖南内外贸一体化融合发展博览会-检信智能彰显行业领航实力
    2025湖南内外贸一体化融合发展博览会-检信智能彰显行业领航实力 4月27日,由湖南省商务厅和株洲市人民政府联合主办的“2025湖南内外贸一体化融合发展博览会暨外贸优品中华行湖南站”,在株洲国际会展中心启动。 检信智能自2016年成立以来,便在AI心理情绪测评领域持续深耕。公司依托机器红外视觉识别技术采集人脸视频数据,结合心理计算大模型及深度学习神经网络架构,打造出了具有自主知识产权的检信ALLEMOTION多维度心理情绪测评系统。该系统运用“语音情绪识别,人脸表情识别,面筛情绪识别,眼动情绪识别“等核心自主知识产权技术,结合湘雅医学院心理专家团队提供心理情绪分类模型为基础,非量表预测筛查测试者心理健康预警,建立心理健康档案管理系统,具有快速、客观、高效的特点,检测全程仅需60秒,有效避免主观答题的随意性,解决心理人才短缺问题。广泛应用于医疗、教育、军队等多个场景。 2023年,检信智能成功实现我国第一台自主研发的AI心理情绪测评系统出口到新加坡,彰显了其技术实力与产品质量获得国际认可。在各类展会上,检信智能推出的非量表心理评估自助式一体机等产品,凭借技术创新、良好的用户体验和数据客观性,收获诸多肯定。未来,检信智能也将继续发力,推动AI心理情绪测评技术迈向新高度。
    2025-04-28
  • 检信智能圆满完成第84届中国教育装备展示会的参展工作
    检信智能圆满完成第84届中国教育装备展示会的参展工作 第84届中国教育装备展示会于2024年10月25日至27日在昆明滇池国际会展中心举办,本次展示会全面展示了科技创新成果在学前教育、基础教育、职业教育、特殊教育和高等教育领域的应用,包括实验室设备、信息化设备及教学软件、功能/学科教室设备,AI心理测评、音体美设备等,涵盖教育领域各个应用场景。参展的国家级高新技术企业有255家,占参展企业总数的33%。 检信ALLEMOTION 多维度心理情绪测评系统依托机器红外视觉识别技术采集人脸视频数据,结合心理计算大模型及深度学习神经网络架构,预测筛查学生心理健康预警及建立学生心理健康档案管理系统。通过本次展会与广大客户群体深入交流学习,获得了很多用户意见及认同,对我们检信品牌AI心理情绪识别具有很大的价值与作用。 湖南检信智能科技有限公司成立于2016年,是一家专注于语音情绪识别,人脸表情识别,面筛情绪识别,眼动情绪识别等核心自主知识产权技术开发的人工智能型企业,并结合湘雅医学院心理专家团队心理情绪分类模型,首创检信 Allemotion OS心理情绪开发平台, 应用开发有多维度AI心理测评系统、岗前安全评测系统和心理意图分析系统等主导产品。 检信智能聚焦于心理情绪技术的开发与应用,经过8年的企业创新发展历程,累计申请国家发明专利17项,2019年获得武器装备质量管理体系认证,2021年获得国防科大国科平台优秀创新奖,2022年非接触式无创伤心理情绪监测核心技术荣获国家科技部发明创新创业成果二等奖,2023年荣获国家高新技术企业。
    2024-10-31