python爬虫学习笔记——5. jieba库中文分词用法
发布网友
发布时间:2024-09-17 02:16
我来回答
共1个回答
热心网友
时间:2024-10-21 09:23
整理自< 结巴中文分词的用法>
特点
演示文档
安装说明 代码对 Python 2/3 均兼容
算法
主要功能
1. jieba 分词有三种模式,并且支持新建自定义分词器
代码示例
输出:
2. 添加自定义词典
载入词典
范例: 自定义词典: https://github.com/fxsjy/jieba/blob/master/test/userdict.txt 用法示例: https://github.com/fxsjy/jieba/blob/master/test/test_userdict.py
调整词典
代码示例:
3. 关键词提取
基于 TF-IDF 算法的关键词抽取
import jieba.analyse
jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
sentence 为待提取的文本
topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20
withWeight 为是否一并返回关键词权重值,默认值为 False
allowPOS 仅包括指定词性的词,默认值为空,即不筛选
分词词性可参见博客:[词性参考]( blog.csdn.net/HHTNAN/ar...)
jieba.analyse.TFIDF(idf_path=None)
新建 TFIDF 实例,idf_path 为 IDF 频率文件
代码示例 (关键词提取) https://github.com/fxsjy/jieba/blob/master/test/extract_tags.py
关键词提取所使用逆向文件频率(IDF)文本语料库可以切换成自定义语料库的路径
用法: jieba.analyse.set_idf_path(file_name)
# file_name为自定义语料库的路径
自定义语料库示例: github.com/fxsjy/jieba/...
用法示例: github.com/fxsjy/jieba/...
关键词提取所使用停止词(Stop Words)文本语料库可以切换成自定义语料库的路径
用法: jieba.analyse.set_stop_words(file_name)
# file_name为自定义语料库的路径
自定义语料库示例: github.com/fxsjy/jieba/...
用法示例: github.com/fxsjy/jieba/...
关键词一并返回关键词权重值示例
用法示例: ttps://github.com/fxsjy/jieba/blob/master/test/extract_tags_with_weight.py
基于 TextRank 算法的关键词抽取
jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
直接使用,接口相同,注意默认过滤词性。
jieba.analyse.TextRank()
新建自定义 TextRank 实例
算*文: TextRank: Bringing Order into Texts
基本思想:
使用示例: 见 test/demo.py
4. 词性标注
5. 并行分词
6. Tokenize:返回词语在原文的起止位置
输出:
输出
7. ChineseAnalyzer for Whoosh 搜索引擎
8. 命令行分词
使用示例:python -m jieba news.txt > cut_result.txt
命令行选项(翻译):
延迟加载机制 jieba 采用延迟加载,import jieba 和 jieba.Tokenizer()不会立即触发词典的加载,一旦有必要才开始加载词典构建前缀字典。
如果你想手工初始 jieba,也可以手动初始化。
下面部分内容整理自< python jieba分词(结巴分词)、提取词,加载词,修改词频,定义词库>
二、 常用NLP扩充知识点(python2.7)
这几个点在知乎爬虫程序中很有用处
Part 1. 词频统计、降序排序
Part 2. 人工去停用词
标点符号、虚词、连词不在统计范围内
Part 3. 合并同义词
将同义词列举出来,按下Tab键分隔,把第一个词作为需要显示的词语,后面的词语作为要替代的同义词,一系列同义词放在一行。
这里,“北京”、“首都”、“京城”、“北平城”、“故都”为同义词。
Part 4. 词语提及率
主要步骤:分词——过滤停用词(略)——替代同义词——计算词语在文本中出现的概率。
Part 5. 按词性提取