问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

开头的是什么编码?

发布网友 发布时间:2024-05-01 15:00

我来回答

1个回答

热心网友 时间:2024-10-20 01:01

在使用readability的api提取网页内容的时候 点这里看-readability-网页内容提取利器 ,中文内容都是 &#x 开头的一堆乱码似的东西。但保存成网页文件后,浏览器是可以正常显示的~

故搜索了一下,知乎上有个 回答 挺好,在此转一下:

形如

的一串字符是 HTML、XML 等 SGML 类语言的转义序列(escape sequence)。它们不是「编码」。以 HTML 为例,这三种转义序列都称作 character reference:第一种是 character entity reference,后接预先定义的 entity 名称,而 entity 声明了自身指代的字符。
后两种是 numeric character reference(NCR),数字取值为目标字符的 Unicode code point;以「&#」开头的后接十进制数字,以「&#x」开头的后接十六进制数字。

从 HTML 4 开始,NCR 以 Unicode 为准,与文档编码无关。「中国」二字分别是 Unicode 字符 U+4E2D 和 U+56FD,十六进制表示的 code point 数值「4E2D」和「56FD」就是十进制的「20013」和「22269」。所以

这两种 NCR 写法都会在显示时转换为「中国」二字。NCR 可以用于转义任何 Unicode 字符,而 character entity reference 很受限,参见 HTML 4 和 HTML5 中已有定义的字符列表:
Character entity references in HTML 4
Character entity references in HTML5

另外可以参考这篇文章 使用 &#x 3000 等空格实现最小成本中文对齐

知道了是什么,现在来看怎么把它转回成中文呢?
Python实现

要将16进制字符转成中文可以用如下方法

故需要将 &#xhhhh; 做替换,再用上面的方式进行转换。对于特殊符号(如加减乘除),会显示为 &#xhh ,后面只有两位,在转换之前,需要提前补全。具体可参看 readability-网页内容提取利器

Java实现

补充:
后来想到,其实可以把这当成html来解析啊,然后就有了:

热心网友 时间:2024-10-20 01:01

在使用readability的api提取网页内容的时候 点这里看-readability-网页内容提取利器 ,中文内容都是 &#x 开头的一堆乱码似的东西。但保存成网页文件后,浏览器是可以正常显示的~

故搜索了一下,知乎上有个 回答 挺好,在此转一下:

形如

的一串字符是 HTML、XML 等 SGML 类语言的转义序列(escape sequence)。它们不是「编码」。以 HTML 为例,这三种转义序列都称作 character reference:第一种是 character entity reference,后接预先定义的 entity 名称,而 entity 声明了自身指代的字符。
后两种是 numeric character reference(NCR),数字取值为目标字符的 Unicode code point;以「&#」开头的后接十进制数字,以「&#x」开头的后接十六进制数字。

从 HTML 4 开始,NCR 以 Unicode 为准,与文档编码无关。「中国」二字分别是 Unicode 字符 U+4E2D 和 U+56FD,十六进制表示的 code point 数值「4E2D」和「56FD」就是十进制的「20013」和「22269」。所以

这两种 NCR 写法都会在显示时转换为「中国」二字。NCR 可以用于转义任何 Unicode 字符,而 character entity reference 很受限,参见 HTML 4 和 HTML5 中已有定义的字符列表:
Character entity references in HTML 4
Character entity references in HTML5

另外可以参考这篇文章 使用 &#x 3000 等空格实现最小成本中文对齐

知道了是什么,现在来看怎么把它转回成中文呢?
Python实现

要将16进制字符转成中文可以用如下方法

故需要将 &#xhhhh; 做替换,再用上面的方式进行转换。对于特殊符号(如加减乘除),会显示为 &#xhh ,后面只有两位,在转换之前,需要提前补全。具体可参看 readability-网页内容提取利器

Java实现

补充:
后来想到,其实可以把这当成html来解析啊,然后就有了:

热心网友 时间:2024-10-20 01:02

在使用readability的api提取网页内容的时候 点这里看-readability-网页内容提取利器 ,中文内容都是 &#x 开头的一堆乱码似的东西。但保存成网页文件后,浏览器是可以正常显示的~

故搜索了一下,知乎上有个 回答 挺好,在此转一下:

形如

的一串字符是 HTML、XML 等 SGML 类语言的转义序列(escape sequence)。它们不是「编码」。以 HTML 为例,这三种转义序列都称作 character reference:第一种是 character entity reference,后接预先定义的 entity 名称,而 entity 声明了自身指代的字符。
后两种是 numeric character reference(NCR),数字取值为目标字符的 Unicode code point;以「&#」开头的后接十进制数字,以「&#x」开头的后接十六进制数字。

从 HTML 4 开始,NCR 以 Unicode 为准,与文档编码无关。「中国」二字分别是 Unicode 字符 U+4E2D 和 U+56FD,十六进制表示的 code point 数值「4E2D」和「56FD」就是十进制的「20013」和「22269」。所以

这两种 NCR 写法都会在显示时转换为「中国」二字。NCR 可以用于转义任何 Unicode 字符,而 character entity reference 很受限,参见 HTML 4 和 HTML5 中已有定义的字符列表:
Character entity references in HTML 4
Character entity references in HTML5

另外可以参考这篇文章 使用 &#x 3000 等空格实现最小成本中文对齐

知道了是什么,现在来看怎么把它转回成中文呢?
Python实现

要将16进制字符转成中文可以用如下方法

故需要将 &#xhhhh; 做替换,再用上面的方式进行转换。对于特殊符号(如加减乘除),会显示为 &#xhh ,后面只有两位,在转换之前,需要提前补全。具体可参看 readability-网页内容提取利器

Java实现

补充:
后来想到,其实可以把这当成html来解析啊,然后就有了:

热心网友 时间:2024-10-20 01:02

在使用readability的api提取网页内容的时候 点这里看-readability-网页内容提取利器 ,中文内容都是 &#x 开头的一堆乱码似的东西。但保存成网页文件后,浏览器是可以正常显示的~

故搜索了一下,知乎上有个 回答 挺好,在此转一下:

形如

的一串字符是 HTML、XML 等 SGML 类语言的转义序列(escape sequence)。它们不是「编码」。以 HTML 为例,这三种转义序列都称作 character reference:第一种是 character entity reference,后接预先定义的 entity 名称,而 entity 声明了自身指代的字符。
后两种是 numeric character reference(NCR),数字取值为目标字符的 Unicode code point;以「&#」开头的后接十进制数字,以「&#x」开头的后接十六进制数字。

从 HTML 4 开始,NCR 以 Unicode 为准,与文档编码无关。「中国」二字分别是 Unicode 字符 U+4E2D 和 U+56FD,十六进制表示的 code point 数值「4E2D」和「56FD」就是十进制的「20013」和「22269」。所以

这两种 NCR 写法都会在显示时转换为「中国」二字。NCR 可以用于转义任何 Unicode 字符,而 character entity reference 很受限,参见 HTML 4 和 HTML5 中已有定义的字符列表:
Character entity references in HTML 4
Character entity references in HTML5

另外可以参考这篇文章 使用 &#x 3000 等空格实现最小成本中文对齐

知道了是什么,现在来看怎么把它转回成中文呢?
Python实现

要将16进制字符转成中文可以用如下方法

故需要将 &#xhhhh; 做替换,再用上面的方式进行转换。对于特殊符号(如加减乘除),会显示为 &#xhh ,后面只有两位,在转换之前,需要提前补全。具体可参看 readability-网页内容提取利器

Java实现

补充:
后来想到,其实可以把这当成html来解析啊,然后就有了:

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
Ba(NO3)2与H2SO3 反应的生成物是什么? 为什么强酸性的溶液不会产生BaSO3沉淀? 高中化学 SO2通入Ba(N03)2 某探究小组的同学用H2SO4、Ba(NO3)2、NaOH、K2CO3四种溶液进行“复分... ...3↓+2HNO3,这个反应能发生吗?好像违背了强酸制弱酸的原理。大家说... 波涛滚滚是什么动物 昆明申报灵活就业补贴条件 湖南残疾人在昆明有补贴吗 云南残疾人最低生活保障未发放怎么办 我看见别人的QQ好友里有3个自己的QQ号,怎么加的啊 中国联通怎样下载沃商店客户端 2023年​长治市消防救援支队面向社会招录政府专职消防员公告?_百度... 阑尾炎动完手术5天吸管里为什么还有脏水 手机欠费停机不交会怎样手机欠费停机不交会怎样 溺的另一个读音。 兰湘子菜馆中推荐哪些菜品? 长沙有哪些值得推荐的当地特色美食? 湖南“十大硬菜”,每道都是当地人的心头爱,网友:全都是下饭菜 小瓜要煮多久才熟透 小瓜冷水下锅煮多久 请问红鸦之谜里,汽车的引擎盖怎么打开 为什么我的移动手机4G信号变成2G了? 雷凌17款小扳手清除方法是什么? 从江苏省连云港市灌云县到临沂蒙阴的圆通快递需要几天?急!!! 上海武宁有什么适合游客品尝的特色美食? 押花师的工作是什么 奥迪q2l怎么启动和停车? 奥迪q2l自动启停怎么关闭? 奥迪q2auto是什么意思 奥迪q2中控台的AUTO是发动机自动启停按钮对吗... 华为手机视频怎么添加音乐 如何才能让自己变得伶俐、成熟、稳重 中央空调标志图解 iPhone11横屏竖屏在哪设置 空调双排管和单排管的区别在哪里 文科生 想问个政治问题 我的女儿九周岁了身高130是不是太矮了,吃增高乐管用吗?我该怎么办... 女儿9岁,身高130厘米,体重29公斤,请问正 政治革命对社会政治发展的作用有哪些 政治革命的作用和功能是什么? 政治学革命对历史发展的巨大作用表现在哪些方面 滑冰场上 概括美英等国政治革命的进步作用 并简述理由? 2023年2月份生子黄道吉日一览表  万年历本月生孩子吉日查询?_百度... 深圳市坐地铁从丹竹头到孖湾站怎么走? 郑卅有哪些好玩的地方特色 长安招聘是直招吗 长安福特汽车有限公司(简称长安福特)招聘点在哪里 你还知道哪些动物尾巴的作用 编码器的型号和规格有哪些? "文件柜"英文怎么说 我17~18岁,皮肤平时很好,可每次洗完澡就出红斑,为什么