问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

131在线民宿 UGC 数据挖掘实战--深度模型在情感分析中的应用

发布网友 发布时间:2022-12-26 04:35

我来回答

1个回答

热心网友 时间:2023-11-05 18:34

本次实验将继续加载两个数据,一个是已经标注好的用户评论数据,另外一个是用户评价主题句,通过标注过的用户评论数据研究不同粒度的用户评价处理对深度情感分析模型的性能的影响,并比较字符级模型在用户评价情感极性推理上的差异。
使用 Pandas 加载已经标注好的在线用户评论情感数据表格,并查看数据维度和前 5 行数据。

加载民宿评论数据,并打印第一行。

数据属性如下表所示

用户评论分词
jieba 分词器预热,第一次使用需要加载字典和缓存,通过结果看出返回的是分词的列表。

批量对用户评价进行分词,并打印第一行数据,处理过程需要一些时间。

将用户评论处理成字符级别,为字符级模型提供训练集,并打印第一行数据,此预处理速度远远快于分词速度。

TextCNN 使用的卷积神经网络是一个典型的空间上的深度神经网络,基于卷积神经网络的情感分析具有优秀的特征抽取能力,能显著降低情感分类中人工抽取特征的难度。这类方法又根据文本嵌入粒度的不同可以分为字符级嵌入和词嵌入两种,一种是以分词后的词为情感分析粒度,另一种为字符级粒度的情感分析粒度,最后一层将包含全文潜在信息的最终编码送入 Sigmoid 做情感强度计算,即可对用户评论进行情感极性推理,是目前在文本分类经常使用的模型。

词级别模型训练

按照训练集 8 成和测试集 2 成的比例对数据集进行划分。

词级 TextCNN 模型训练,设置 128 条数据为一个批次,2 轮模型训练,训练集中的 20% 作为验证集,并加入早停设置。

通过传入原始的标签和预测的标签可以直接将分类器性能进行度量,并对指标收集,包含:模型的训练时间、accuracy_score 表示被正确预测的样本占总样本的比例、f1_score 值表示精确率与召回率的调和平均数和模型标签。

对训练的模型进行加载,并打印网络结构。

设置固定划分数据集,划分比例为 0.2 即训练集是测试集的 4 倍量。

字符级别模型训练
字符级 TextCNN 模型训练,设置 128 条数据为一个批次,2 轮模型训练,训练集中的 20% 作为验证集,并加入早停设置。

对字符级 TextCNN 的预测结果进行收集。

GRU 属于 RNN(recurrent neural networks,循环神经网络),是 LSTM 最流行的一个变体,比 LSTM 模型要简单,GRU 的门控单元减少了一个,GRU 与 LSTM 一样都是旨在解决标准 RNN 中出现的梯度消失问题,GRU 比 LSTM 在减少了计算量的条件下,做到了精度与 LSTM 持平,是目前在文本分类经常使用的模型。
我们使用函数定义的方式进行 GRU 模型的初始化。

对训练的模型进行加载,并打印网络结构。

词级别模型训练
词级 GRU 模型训练,设置 128 条数据为一个批次,2 轮模型训练,训练集中的 20% 作为验证集,并加入早停设置。

对训练的模型进行加载,并打印网络结构。

字符级别模型训练
将处理好的用户评论数据进行字符级处理即可输入字符级 GRU 模型训练,设置 128 条数据为一个批次,2 轮模型训练,训练集中的 20% 作为验证集,并加入早停设置。

对字符级 GRU 的测试集预测性能进行记录。

模型性能分析
通过控制参数变量的方式进行,并使用同样的数据集合观察性能指数测试结果。字符级能使用较小的字符级词典对语料的覆盖度更高,字符级预处理在测试集上的表现基本接近词级模型,并从耗时来看字符级都是最少的。TextCNN 架构总体高于 GRU 的准确度和综合值,并且训练时间相对较短。字符级语言建模的思想来自于信号处理,使用语言最小的文字单元去模拟复杂的语义关系,因为我们相信模型可以捕捉到这些语法和单词语义信息,在后续我们继续使用这种方式。

对用户评论数据预处理

对用户评论进行字符向量化。

情感极性推理
使用训练好的字符级 TextCNN 对用户评论进行情感预测,需要一些时间,请耐心等待。

使用训练好的字符级 GRU 对用户评论进行情感预测,需要一些时间,请耐心等待。

情感极性推理结果可视化
将两种字符级神经网络情感极性推理模型的结果取出来。

对全量的用户评论分别使用两个模型进行情感极性预测,并进行可视化,我们发现两种模型在全量的用户评论上的表现基本一致,字符级 TextCNN 在用户两极情感极性上表现更好。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
显卡降价矿难了!分享几个检测矿卡的实用软件 怎么分辨二手显卡刷bios 下文教你 怎么识别矿卡 鉴别矿卡的方法介绍 怎么设置小度在家回家视频通话? 贵阳砂岩雕塑厂有哪些 西安市长安二中附近有老年公寓没 来西安这么久了第一次租到性价比高的房子,松鼠公寓良心推荐_西安... 陕西省自强中等专业学校2024年学费多少 宝鸡市区有什么比较好的楼盘 乔安如何远程监控 抽样算法属于特征工程嘛 3.1.1.1特征抽取 如何做蛋炒面 家庭版炒面怎么做既简单又好吃 西芹蛋炒面如何做西芹蛋炒面怎么做 中国联通驻地网如何实现? 运营商驻网时间 驻地网的工作好干吗 驻网异常什么意思 如何在小米电视看直播 房贷申请了要多长时间才能办下来? 在北京办理港澳通行证需要多久?第一次办,会不会很长时间?两周之内能下来么? 高铁补办临时身份证需要多长时间 个人无抵押贷款要是想办理的话是不是得很长时间才能下来啊? 办临时身份证需要多久时间才能办? icloud邮箱为什么不能打开手机邮件 经常喝蜂蜜水有什么好处 经常喝蜂蜜水好处是什么 英语流利说 Level 4 Unit 3-3 Colony Collapse 华为麦芒11手机怎么隐藏应用? 描写深秋落叶的句子41句 形容银杏飘落的句子 描写银杏飘落的句子 word表格跨页了怎么办 工行信用卡逾期如何与银行协商解决 梅子是什么季节开的 你知道吗 十元火锅怎么弄底料 我的世界宝可梦异界刷神兽吗 究极绿宝石帝牙卢卡和帕路奇犽怎么双抓 以前玩过的一款插卡口袋妖怪,初始宝可梦是帝牙卢卡和帕路奇犽,开局附近还有个梦幻,可有人知道是啥? 医院新生婴儿发票怎么开 西北妇女儿童医院新生儿科在几楼 大峰医院在培训儿科医生吗 鄂尔多斯中心医院新生儿科发生感染暴发事件,此次事故应该由谁负责? 广西医科大学武鸣校区占地多少亩 广西医科大学武鸣校区地址 广西医科大学武鸣校区邮编 广西医科大学武鸣校区有没有平时开放的机房 哪里有QQ空间相册好看的封面? 西南11j-112是装饰装修施工规范吗 外墙变形缝西南11j112,35,1 谁能讲讲什么是抱框立柱? 我的iPhone4多出好多没用的图标该怎么删啊