检信智能ALLEMOTION OS 语义文本情感识别原理
日期:2021.09.20   来源:湖南检信智能
检信ALLEMOTION

检信智能ALLEMOTION OS 语义文本情感识别原理

首先,当然是文本预处理

输入文本,在将输入文本转化成向量之前,我们需要将标点符号、括号、问号等删去,只留下字母、数字和字符, 同时将大写字母转化为小写,去除停用词。

效果如下图

 image.png

 

然后就是将文本转化为词向量(即汉字要转化为计算机能识别的数字类(矩阵啥的))

在将深度学习运用于文本情感分析的过程中,我们需要考虑网络模型的输入数据的形式。在其他例子中,卷积神经网络(CNN)使用像素值作为输入,logistic回归使用一些可以量化的特征值作为输入,强化学习模型使用奖励信号来进行更新。通常的输入数据是需要被标记的标量值。当我们处理文本任务时,可能会想到利用这样的数据管道。

 image.png

但是,这样的处理方式存在着很多问题。我们不能像点积或者反向传播那样在一个字符串上执行普通的运算操作。所以在这里我们不能将字符串作为输入,而是需要将文本转换成计算机可识别的格式,由于计算机只能识别数字,因此我们可以将文本中的每一个词都转化为一个向量,也称作词向量。词向量是用一个向量的形式表示文本中的一个词,通过这种转化方式就能采用机器学习来把任何输入量化成我们需要的数值表示,然后就可以充分利用计算机的计算能力,计算得出最终想要的结果,保证了操作的可行性。

 image.png

 

如图所示,我们可以将上面的这段文本输入数据转化成一个 16*D 的输入矩阵。

 image.png

我们希望创建这种词向量的方式是可以表示单词及其在上下文中意义的。例如,我们希望单词 love” 和 “adore” 这两个词在向量空间中是有一定的相关性的,因为他们的意思相似,而且都在类似的上下文中使用,因此他们的空间相距距离会相对较小。而“love”、“adore”这两个单词与单词“baseball”的意思有很大的不同,词性也不相同,那么“love”、“adore”这两个单词的向量与单词“baseball”的向量相距距离就会相对较大。单词的向量表示也被称之为词嵌入。

 image.png

 

特征提取:

 

为了得到这些词嵌入,我们采用一个很著名的模型 Word2Vec”。“Word2Vec”是近几年很火的算法,它通过神经网络机器学习算法来训练N-gram 语言模型,并在训练过程中求出word所对应的vector的方法。它是将词表征为实数值向量的一种高效的算法模型,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似。在这个模型中,每个词的词向量是根据上下文的语境来进行推断的,如果两个词在上下文的语境中可以被互换,那么这就表示这两个词的意思相似,词性相似,那么他们的词向量中相距距离就非常近。在自然语言中,上下文的语境对分析词语的意义是非常重要的。

 

简单来说,Word2Vec这个模型的作用就是从一大堆句子(以 Wikipedia 为例)中为每个独一无二的单词进行建模,并且输出一个唯一的向量,Word2Vec 模型的输出被称为一个嵌入矩阵。该嵌入矩阵将包含训练语料库中每个不同单词的向量。 传统上,嵌入矩阵可以包含超过300万个单词向量。

 

Word2Vec模型是通过对数据集中的每个句子进行训练,在其上滑动一个固定大小的窗口,并试图预测窗口的中心词,给出其他词。使用损失函数和优化程序,该模型为每个唯一字生成向量。这个训练过程的细节可能会变得有点复杂,所以我们现在要跳过细节,但这里主要的一点是,任何深度学习方法对于NLP任务的输入可能都会有单词向量作为输入。

 

后面特征提取这一块,应该会将用word2vec提取的方式改为用doc2vec来提取,不过具体修改时间待定,得看我啥时候能将这一操作学会(哈哈哒)

 

Google 已经帮助我们在大规模数据集上训练出来了 Word2Vec 模型,它包括 1000 亿个不同的词,在这个模型中,谷歌能创建300万个词向量,每个向量维度为 300。在理想情况下,我们将使用这些向量来构建模型,但是因为这个单词向量矩阵太大了(3.6G),因此在此次研究中我们将使用一个更加易于管理的矩阵,该矩阵由 GloVe 进行训练得到。矩阵将包含 400000 个词向量,每个向量的维数为 50

这里有用到一些.npy文件,是通过glove已经转好的,存为了npy文件。

 

我们将导入两个不同的数据结构,一个是包含 400000 个单词的 Python 列表,一个是包含所有单词向量值的 400000*50 维的嵌入矩阵。

结果对比:

 image.png

CNN网络层数包括:卷积层,池化层,全连接层。

 

CNN神经网络模型运用于文本情感分析时效果不如LSTM神经网络模型效果好,经典的CNN模型在文本情感分析正确率只有71.2%,而对经典进行改进之后,增加了卷积层和池化层,CNN模型的正确率得到了提高,但正确率也是只有77.25%,仍然比不上只用了一层LSTM网络的正确率高。从结果对比中我们可以知道,CNN不光可以应用于图像处理领域,也能成功有效地对文本信息进行分析,但LSTM在解决文本情感分析的问题时效果要比CNN好。

 

下面是一些运行结果:

训练数据集的结果

 image.png

…,训练了800多个数据,发现最高的时候准确率在百分之七十几,但是绝大多数稳定在百分之五十左右,这个准确度还是有点低的,后面加强学习,改进代码,应该可以将准确度提高。(方法推荐:改改epoch可能会提高准确度,模型收敛+准确率)

 

输出词列表的长度,词向量的维数

 image.png

 

维度的个数

 image.png

这个项目采用的数据集是IMDB数据集,这个数据集是一个关于电影评论的数据集,在这个数据集上做训练和测试。这个数据集包含 25000 条电影数据,其中 12500 条正向数据,12500 条负向数据。将其中的23000个文本评论作为训练集,将剩下的2000个文本评论作为测试集。

 

下面为正面评价文本和负面评价文本示例

image.png

 

总结:

CNNLSTM两种神经网络模型应用到了文本情感分析的问题当中,使用Word2Vec模型及它的子矩阵GloVe来将文本信息进行预处理,转换成了词向量及向量矩阵,使用了IMDB数据集来对模型进行训练,并用TensorFlow进行建模、训练。

版权声明:本文为CSDN博主「醒了的追梦人」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。


相关推荐
  • 检信智能圆满完成第84届中国教育装备展示会的参展工作
    检信智能圆满完成第84届中国教育装备展示会的参展工作 第84届中国教育装备展示会于2024年10月25日至27日在昆明滇池国际会展中心举办,本次展示会全面展示了科技创新成果在学前教育、基础教育、职业教育、特殊教育和高等教育领域的应用,包括实验室设备、信息化设备及教学软件、功能/学科教室设备,AI心理测评、音体美设备等,涵盖教育领域各个应用场景。参展的国家级高新技术企业有255家,占参展企业总数的33%。 检信ALLEMOTION 多维度心理情绪测评系统依托机器红外视觉识别技术采集人脸视频数据,结合心理计算大模型及深度学习神经网络架构,预测筛查学生心理健康预警及建立学生心理健康档案管理系统。通过本次展会与广大客户群体深入交流学习,获得了很多用户意见及认同,对我们检信品牌AI心理情绪识别具有很大的价值与作用。 湖南检信智能科技有限公司成立于2016年,是一家专注于语音情绪识别,人脸表情识别,面筛情绪识别,眼动情绪识别等核心自主知识产权技术开发的人工智能型企业,并结合湘雅医学院心理专家团队心理情绪分类模型,首创检信 Allemotion OS心理情绪开发平台, 应用开发有多维度AI心理测评系统、岗前安全评测系统和心理意图分析系统等主导产品。 检信智能聚焦于心理情绪技术的开发与应用,经过8年的企业创新发展历程,累计申请国家发明专利17项,2019年获得武器装备质量管理体系认证,2021年获得国防科大国科平台优秀创新奖,2022年非接触式无创伤心理情绪监测核心技术荣获国家科技部发明创新创业成果二等奖,2023年荣获国家高新技术企业。
    2024-10-31
  • 中国心理学会心理测量专业委员会2024年学术年会第一轮通知
    中国心理学会心理测量专业委员会2024年学术年会第一轮通知心理测量专委会中国心理学会2024年10月21日 09:01北京在人工智能时代,心理测量与测验领域历经了显著的变革和发展。人工智能技术(如机器学习、大数据分析等)已经被广泛用于心理测量指标的开发、心理测验工具的研制及优化。人工智能在心理测量与测验领域的应用,不仅提高了心理测量与测验的准确性和效率,还为心理测量与测验的创新和转型提供了新的可能性。中国心理学会心理测量专业委员会2024年学术年会定于2024年12月13日至12月15日在贵州省贵阳市召开。本次学术年会的主题为“人工智能时代的心理测量与测验”,会议将重点探讨人工智能时代下心理测量与测验的新趋势、新动向和新发展。大会将邀请心理学、教育学、统计学、计算机科学等领域的专家做大会主旨报告,系统介绍心理测量与测验的前沿方法、技术及应用成果。热忱欢迎各位学界同仁和研究生前来参会。一会议主题人工智能时代的心理测量与测验二会议组织机构主办单位:中国心理学会心理测量专业委员会、贵州师范大学承办单位:贵州师范大学心理学院协办单位:凯里学院、贵州省社会心理学学会顾问:车宏生、余嘉元、戴海琦大会主席:赵守盈学术委员会:张敏强(主任)、甘怡群(副主任)、董圣鸿、傅根跃、王力、黎坚、曾平飞、涂东波、骆方组织委员会:方平(主任)、徐建平(副主任)、罗峥、卞冉、陈海平、程超、杜林致、李英武、李中权、彭恒利、孙健敏、董长江、王蕾、肖玮、谢晶、闫巩固、张颖执行委员会:罗禹(主任)、陈维、罗杰、程刚、曾练平、高旭亮、刘国庆、赵鹏娟、许爽、裴子钊、姚成奎三会议时间、地点和日程安排1.会议时间:2024年12月13日至12月15日。13日全天报到,14-15日正式会议。2.会议地点:贵州省贵安新区花溪大学城贵州师范大学东校区。3.会议日程:日程安排简表见附件,具体日程在第二轮通知中公布。四论文投稿本次年会设主旨报告、分组报告、研究生论坛等环节,欢迎国内外专家学者、同学及各界人士踊跃投稿。1.投稿截止日期:2024年11月30日。2.投稿提交方式:会议摘要请发送至邮箱psychometric2024@163.com。提交时邮件主题及投稿文档请命名为“×××(第一作者姓名)参加心理测量专业委员会2024年学术会议摘要”。3.摘要写作格式要求如下:(1)语言为中文或英文,中文用宋体小四号字,1.5倍行距;英文用Time New Roman 字体小四号字,不超过800字。1.5倍行距。(2)论文摘要内容要求包括论文题目、作者姓名、作者单位全称、电子邮箱地址、联系电话、摘要全文(其中,关键词3~6个,之间用逗号分开)。五会议注册缴费1.会议注册费标准:参会代表1000元,中国心理学会在册普通会员800元,在读全日制学生(凭学生证)500元,中国心理学会在册学生会员400元。2.本次会议由中国心理学会收费并开具发票,具体缴纳方式在第二轮通知中公布。3.参会代表在会议期间的交通费和住宿费均自理。六参展单位邀请诚邀相关学术界与产业界人士参加本次会议,热忱欢迎相关企业和研发机构参会,共同推动心理测量与测验的研究及应用发展。请有意参展的单位于12月6日前发送邮件至psychoassessment@163.com或联系罗老师(电话:18786670954),邮件主题“心理测量与测验年会参展”,请附单位基本情况介绍、相关业务说明等。七会务组联系方式陈维(贵州师范大学),15285959353罗杰(贵州师范大学),18786670954罗峥(专委会秘书处),13661135915中国心理学会心理测量专业委员会贵州师范大学2024年10月21日
    2024-10-21
  • 中国心理学会眼动心理研究专业委员会2024年学术年会第一轮通知
    中国心理学会眼动心理研究专业委员会2024年学术年会第一轮通知眼动心理专委会中国心理学会2024年10月20日 09:02北京中国心理学会眼动心理研究专业委员会2024年学术年会拟于2024年12月21日-22日在河南新乡举行。本次会议由中国心理学会眼动心理研究专业委员会主办,由河南师范大学教育学部承办,河南省心理学会、河南大学心理学院、信阳师范大学教育科学学院心理学系协办。诚挚邀请眼动研究相关领域的科研工作者及社会各界人士参加本次大会。一、会议主题数智时代眼动追踪助力教育强国建设二、会议组织机构主办单位:中国心理学会眼动心理研究专业委员会承办单位:河南师范大学教育学部协办单位:河南省心理学会、河南大学心理学院、信阳师范大学教育科学学院心理学系主 席:白学军(中国心理学会眼动心理研究专业委员会主任)副主席:陈庆荣(中国心理学会眼动心理研究专业委员会副主任)马国杰(中国心理学会眼动心理研究专业委员会副主任)闫国利(中国心理学会眼动心理研究专业委员会副主任)秘 书:张慢慢学术委员会(按姓氏拼音排序):陈黎静、陈栩茜、陈中廷、崔磊、丁锦红、高晓雷、高笑、高在峰、谷璜、顾俊娟、韩海宾、侯友、胡笑羽、贾磊、贾宁、江新、姜英杰、康廷虎、李兴珊、梁菲菲、梁竹苑、林楠、刘萍萍、鹿士义、彭微微、屈青青、申薇、隋雪、谭滢滢、仝文、王福兴、王敬欣、魏玲、闻素霞、吴岩、熊建萍、杨海波、杨锦绵、药盼盼、臧传丽、张锦坤、张慢慢、张运红、周钧毅、周蕾会议筹备组:罗红艳(组长)、陈勇(组长)、苗学杰、康淑霞、肖广军、衡书鹏、刘小先、全金梁、张晓阳、熊建萍、孙文梅、张振、张炀、张利会、党清秀、李双双、张瑞、李云云等三、会议时间、地点及日程安排1.会议时间:2024年12月21日至12月22日2.会议地点:河南师范大学(河南省新乡市建设东路46号)3.主要日程:12月20日,全天报到。12月21-22日,开幕式、大会报告、分组报告、闭幕式。四、会议征稿1.征文主题本次会议征文涉及借助眼动技术开展的相关研究,主题涵盖但不限于眼动控制机制、语言加工、场景知觉、社会发展、跨文化研究、特殊群体发展、人因工程、广告/消费心理、驾驶行为和运动心理等。邀请国内外专家学者分享最新的研究成果,共同研讨如何采用眼动追踪技术进行理论与行为研究。2.投稿要求本次会议将设主题报告、分组报告等学术交流环节,欢迎专家学者、老师、同学及各界人士踊跃投稿。会议摘要以电子文稿形式提交,具体写作格式要求如下:(1)会议摘要语言为中文或英文,以Microsoft Word编辑。中文用宋体5号字,不超过800字。英文用Times New Roman字体5号字,不超过800字。单倍行距。(2)摘要内容要求包括:摘要题目、作者姓名、作者通讯地址(含单位全称、院系部门、所在城市、邮政编码)、电子邮箱地址、联系电话、摘要全文(其中,关键词3至6个,之间用逗号分开)。扫描下方二维码查看摘要格式。请将论文摘要电子word文档发至会务组专用邮箱hnupsycho@126.com。邮件主题及投稿文档命名为“×××(第一作者姓名)参加眼动专委会2024学术会议摘要”等字样。投稿截止日期:2024年12月10日。3.欢迎专家学者组织会前/会后工作坊,有意组织工作坊的老师请与会务组联系商议。五、会务事项1.参会人员欢迎中国心理学会眼动心理研究专业委员会委员、中国心理学会其他分支机构的专家学者、高等院校和研究机构的教师、研究生以及社会各界人士等参会。2.注册缴费(1)会议注册费标准:中国心理学会在册普通会员1000元,非中国心理学会会员1200元,中国心理学会在册学生会员500元,在读全日制学生(凭学生证)600元。(2)本次会议由中国心理学会收费并开具发票,缴费方式详见第二轮通知。(3)参会者会议期间的往返交通费和住宿费自理。六、会务组联系方式联系人:刘小先(河南师范大学),13569853542张振(河南师范大学),17737355922张炀(河南师范大学),17537417138联系邮箱:hnupsycho@126.com中国心理学会眼动心理研究专业委员会2024年10月20日
    2024-10-21