心理咨询设备这样的处理方式存在着很多问题,我们不能像点积或者反向传播那样在一个字符串上执行普通的运算操作,所以在这里我们不能将字符串作为输入,而是需要将文本转换成计算机可识别的格式,由于计算机只能识别数字,因此我们可以将文本中的每一个词都转化为一个向量,也称作词向量。 词向量是用一个向量的形式表示文本中的一个词,通过这种转化方式就能采用机器学习来把任何输入量化成我们需要的数值表示,然后就可以充分利用计算机的计算能力,计算得出最终想要的结果,保证了操作的可行性,为了得到这些词嵌入,我们采用一个很著名的模型 Word2Vec,Word2Vec是近几年很火的算法,它通过神经网络机器学习算法来训练N-gram 语言模型,并在训练过程中求出word所对应的vector的方法,它是将词表征为实数值向量的一种高效的算法模型,其利用深度学习的思想。 可以通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似,在这个模型中,每个词的词向量是根据上下文的语境来进行推断的,如果两个词在上下文的语境中可以被互换,那么这就表示这两个词的意思相似,词性相似,那么他们的词向量中相距距离就非常近,在自然语言中,上下文的语境对分析词语的意义是非常重要的。
2021-12-10