我在用python写一个脚本,从网站上抓取文本,但有的页面是繁体字,python执行decode会出错
发布网友
发布时间:2022-04-18 09:55
我来回答
共1个回答
热心网友
时间:2022-04-18 11:24
那个网站的简繁转换功能只是在JS里面做一个简体字列表和一个对应的繁体字列表,
然后搜索每一个字,作简单的替换而已。
你把那段JS脚本用python重写一下就行了。
但是提醒一下,这种简单的简繁替换是错误的。对大多数字来说可以接受,
但对那些本来在繁体中是两个字,转成简体是一个字的情况,就出问题了。
例如“后”与“後”在繁体中是两个不同意思的字,但简体都是“后”。
简单做替换的话,就分不清“后”与“後”了。
当然,你要是只想得到简体的结果,倒无所谓了。追问那有什么更好的办法吗?我现在最主要的问题是在执行decode的时候繁体字的码根本转不出来,直接报错了........
追答你的decode代码有问题吧,把这部分代码贴上来看看。