如何用PYTHON做分词处理

发布网友发布时间：2022-04-20 08:27

共1个回答

热心网友时间：2022-04-07 12:59

可以利用python的jieba分词，得到文本中出现次数较多的词。

首先pip安装一下jieba，这个可以分词

然后用计数器Counter()统计一下得到的分词中各词的数量

最后most_common(5)，是打印出排名前五位的词（包括特殊符号）

#encoding:utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

import jieba
from collections import Counter

str1 = open('tips.txt').read()

wordlist_after_jieba = jieba.cut(str1, cut_all = True)

list_wl = Counter(wordlist_after_jieba)
for i in list_wl.most_common(5):
print i[0],i[1]

声明：本网页内容为用户发布，旨在传播知识，不代表本网认同其观点，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。E-MAIL:11247931@qq.com