问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

python爬虫学习笔记——5. jieba库中文分词用法

发布网友 发布时间:2024-09-17 02:16

我来回答

1个回答

热心网友 时间:2024-10-21 09:23

整理自< 结巴中文分词的用法>

特点

演示文档

安装说明 代码对 Python 2/3 均兼容

算法

主要功能

1. jieba 分词有三种模式,并且支持新建自定义分词器

代码示例

输出:

2. 添加自定义词典

载入词典

范例: 自定义词典: https://github.com/fxsjy/jieba/blob/master/test/userdict.txt 用法示例: https://github.com/fxsjy/jieba/blob/master/test/test_userdict.py

调整词典

代码示例:

3. 关键词提取

基于 TF-IDF 算法的关键词抽取

import jieba.analyse

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())

sentence 为待提取的文本

topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20

withWeight 为是否一并返回关键词权重值,默认值为 False

allowPOS 仅包括指定词性的词,默认值为空,即不筛选

分词词性可参见博客:[词性参考]( blog.csdn.net/HHTNAN/ar...)

jieba.analyse.TFIDF(idf_path=None)

新建 TFIDF 实例,idf_path 为 IDF 频率文件

代码示例 (关键词提取) https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py

关键词提取所使用逆向文件频率(IDF)文本语料库可以切换成自定义语料库的路径

用法: jieba.analyse.set_idf_path(file_name)

# file_name为自定义语料库的路径

自定义语料库示例: github.com/fxsjy/jieba/...

用法示例: github.com/fxsjy/jieba/...

关键词提取所使用停止词(Stop Words)文本语料库可以切换成自定义语料库的路径

用法: jieba.analyse.set_stop_words(file_name)

# file_name为自定义语料库的路径

自定义语料库示例: github.com/fxsjy/jieba/...

用法示例: github.com/fxsjy/jieba/...

关键词一并返回关键词权重值示例

用法示例: ttps://github.com/fxsjy/jieba/blob/master/test/extract_tags_with_weight.py

基于 TextRank 算法的关键词抽取

jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))

直接使用,接口相同,注意默认过滤词性。

jieba.analyse.TextRank()

新建自定义 TextRank 实例

算*文: TextRank: Bringing Order into Texts

基本思想:

使用示例: 见 test/demo.py

4. 词性标注
5. 并行分词
6. Tokenize:返回词语在原文的起止位置

输出:

输出

7. ChineseAnalyzer for Whoosh 搜索引擎
8. 命令行分词

使用示例:python -m jieba news.txt > cut_result.txt

命令行选项(翻译):

延迟加载机制 jieba 采用延迟加载,import jieba 和 jieba.Tokenizer()不会立即触发词典的加载,一旦有必要才开始加载词典构建前缀字典。

如果你想手工初始 jieba,也可以手动初始化。

下面部分内容整理自< python jieba分词(结巴分词)、提取词,加载词,修改词频,定义词库>

二、 常用NLP扩充知识点(python2.7)

这几个点在知乎爬虫程序中很有用处

Part 1. 词频统计、降序排序

Part 2. 人工去停用词

标点符号、虚词、连词不在统计范围内

Part 3. 合并同义词

将同义词列举出来,按下Tab键分隔,把第一个词作为需要显示的词语,后面的词语作为要替代的同义词,一系列同义词放在一行。

这里,“北京”、“首都”、“京城”、“北平城”、“故都”为同义词。

Part 4. 词语提及率

主要步骤:分词——过滤停用词(略)——替代同义词——计算词语在文本中出现的概率。

Part 5. 按词性提取
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
孩子依赖性太强,妈妈怎么办?目录 孩子对妈妈依赖性太强怎么办 介绍权利的游戏里龙之母全名是什么? 澳洲血橙胶原蛋白是玻璃瓶的吗? 梦见母亲侄子妹妹舅妈电话破屋的预兆 梦见坐别人的车什么意思 有多少人去拜过“龙母”,又有几人知道“龙母”是真的存在过 龙母庙地址在哪里? 龙母像地址在哪里? 龙姥姥是龙母娘娘吗 一套在闲鱼被疯狂转了2万次的python爬虫学习笔记~(限时分享,内附资料... python爬虫要学多久找工作(2023年最新分享) 麦草几月种植啊 养鸡用的青饲料 python爬虫多久能学完? java之父头发(java之父是谁) 编曲软件超全面对比,音乐爱好者到底应该选择哪款DAW? 夺命现场第10集里程实穿的衣服牌子 夺命现场皓峰是第几集死的 电脑游戏排行榜前十名(电脑游戏排行榜前十名免费) 单机游戏排行榜电脑版 三星手机屏幕亮线消除方法 三星s6手机屏幕有竖纹? 手机屏幕出现亮线,什么原因? 那意思就是说在大淘客上面推广的话我在淘宝联盟照样可以收到佣金是吗... 我在超市的电子柜存的钱和卡不见了怎么办? 超市购物卡刷了但是没按确认支付取消付款怎么钱没有了 青少年特发性脊柱侧弯如何进行自我巩固性治疗? 脊柱侧弯几岁定型 青少年脊柱侧弯能治愈吗? 海城大悲寺8月31日什么节日 吃西洋参会怎样,可志失失眠吗 尿不湿有股刺鼻的味道 把让爸妈给自己买小米手机当作元旦愿望靠谱吗 为什么龙是绿色的? 春不要龙是什么意思? 女人是不是不能喝冰箱里的水 长时间喝冰水好吗大神们帮帮忙 女人夏天一天专喝冰水的有什么后遗症 女人能长期喝冰水吗 ?谢谢 串的长度是指 小米手环怎么拆下来充电 请减少输入的字符数什么意思 ai文字超出本身的框怎么办ai文字超出本身的框怎么办恢复 二手手机有锁是什么意思? 如何去除家里的异味 怎么能去除家里的异味10种方法教你去除家中的各种异味 即热式电热水器突然不加热 中国知网怎么打不开网页了,怎么办? 中国知网的文献为什么访问不了? 中国知网无法打开怎么办?