131在线民宿 UGC 数据挖掘实战--深度模型在情感分析中的应用

发布网友发布时间：2022-12-26 04:35

共1个回答

热心网友时间：2023-11-05 18:34

本次实验将继续加载两个数据，一个是已经标注好的用户评论数据，另外一个是用户评价主题句，通过标注过的用户评论数据研究不同粒度的用户评价处理对深度情感分析模型的性能的影响，并比较字符级模型在用户评价情感极性推理上的差异。
使用 Pandas 加载已经标注好的在线用户评论情感数据表格，并查看数据维度和前 5 行数据。

加载民宿评论数据，并打印第一行。

数据属性如下表所示

用户评论分词
jieba 分词器预热，第一次使用需要加载字典和缓存，通过结果看出返回的是分词的列表。

批量对用户评价进行分词，并打印第一行数据，处理过程需要一些时间。

将用户评论处理成字符级别，为字符级模型提供训练集，并打印第一行数据，此预处理速度远远快于分词速度。

TextCNN 使用的卷积神经网络是一个典型的空间上的深度神经网络，基于卷积神经网络的情感分析具有优秀的特征抽取能力，能显著降低情感分类中人工抽取特征的难度。这类方法又根据文本嵌入粒度的不同可以分为字符级嵌入和词嵌入两种，一种是以分词后的词为情感分析粒度，另一种为字符级粒度的情感分析粒度，最后一层将包含全文潜在信息的最终编码送入 Sigmoid 做情感强度计算，即可对用户评论进行情感极性推理，是目前在文本分类经常使用的模型。

词级别模型训练

按照训练集 8 成和测试集 2 成的比例对数据集进行划分。

词级 TextCNN 模型训练，设置 128 条数据为一个批次，2 轮模型训练，训练集中的 20% 作为验证集，并加入早停设置。

通过传入原始的标签和预测的标签可以直接将分类器性能进行度量，并对指标收集，包含：模型的训练时间、accuracy_score 表示被正确预测的样本占总样本的比例、f1_score 值表示精确率与召回率的调和平均数和模型标签。

对训练的模型进行加载，并打印网络结构。

设置固定划分数据集，划分比例为 0.2 即训练集是测试集的 4 倍量。

字符级别模型训练
字符级 TextCNN 模型训练，设置 128 条数据为一个批次，2 轮模型训练，训练集中的 20% 作为验证集，并加入早停设置。

对字符级 TextCNN 的预测结果进行收集。

GRU 属于 RNN（recurrent neural networks，循环神经网络)，是 LSTM 最流行的一个变体，比 LSTM 模型要简单，GRU 的门控单元减少了一个，GRU 与 LSTM 一样都是旨在解决标准 RNN 中出现的梯度消失问题，GRU 比 LSTM 在减少了计算量的条件下，做到了精度与 LSTM 持平，是目前在文本分类经常使用的模型。
我们使用函数定义的方式进行 GRU 模型的初始化。

对训练的模型进行加载，并打印网络结构。

词级别模型训练
词级 GRU 模型训练，设置 128 条数据为一个批次，2 轮模型训练，训练集中的 20% 作为验证集，并加入早停设置。

对训练的模型进行加载，并打印网络结构。

字符级别模型训练
将处理好的用户评论数据进行字符级处理即可输入字符级 GRU 模型训练，设置 128 条数据为一个批次，2 轮模型训练，训练集中的 20% 作为验证集，并加入早停设置。

对字符级 GRU 的测试集预测性能进行记录。

模型性能分析
通过控制参数变量的方式进行，并使用同样的数据集合观察性能指数测试结果。字符级能使用较小的字符级词典对语料的覆盖度更高，字符级预处理在测试集上的表现基本接近词级模型，并从耗时来看字符级都是最少的。TextCNN 架构总体高于 GRU 的准确度和综合值，并且训练时间相对较短。字符级语言建模的思想来自于信号处理，使用语言最小的文字单元去模拟复杂的语义关系，因为我们相信模型可以捕捉到这些语法和单词语义信息，在后续我们继续使用这种方式。

对用户评论数据预处理

对用户评论进行字符向量化。

情感极性推理
使用训练好的字符级 TextCNN 对用户评论进行情感预测，需要一些时间，请耐心等待。

使用训练好的字符级 GRU 对用户评论进行情感预测，需要一些时间，请耐心等待。

情感极性推理结果可视化
将两种字符级神经网络情感极性推理模型的结果取出来。

对全量的用户评论分别使用两个模型进行情感极性预测，并进行可视化，我们发现两种模型在全量的用户评论上的表现基本一致，字符级 TextCNN 在用户两极情感极性上表现更好。