关于计算机汉字的编码,计算机中的汉字库中大概有多少个?
发布网友
发布时间:2022-04-29 09:23
我来回答
共3个回答
热心网友
时间:2022-06-25 10:21
电脑汉字的编码,电脑汉字库中的汉字数量由字符集决定的,GB2312的字符集约6000多,GBK约1-2万,GB18030约6万。
电脑内部汉字信息的存储运算的代码有四种:输入码、国标码、内码和字型码。
输入码:包括拼音编码和字型编码。微软拼音ABC就是拼音编码,五笔字型输入法就是字型编码。
国标码:又称为汉字交换码,在计算机之间交换信息用。用两个字节来表示,每个字节的最高位均为0,因此可以表示的汉字数为2的14次幂,就是16384个。将汉字区位码的高位字节、低位字节各加十进制数32(即十六进制数的20),便得到国标码。例如“中”字的国标码为8680(十进制)或7468(十六进制)。
内码:汉字内码是在设备和信息处理系统内部存储、处理、传输汉字用的代码。无论使用何种输入码,进入计算机后就立即被转换为机内码。规则是将国标码的高位字节、低位字节各自加上128(十进制)或80(十六进制)。例如,“中”字的内码以十六进制表示时应为F4E8。这样做的目的是使汉字内码区别于西文的ASCII,因为每个西文字母的ASCII的高位均为0,而汉字内码的每个字节的高位均为1。
字型码:表示汉字字形的字模数据,因此也称为字模码,是汉字的输出形式。通常用点阵、矢量函数等表示。用点阵表示时,字形码指的就是这个汉字字形点阵的代码。根据输出汉字的要求不同,点阵的多少也不同。简易型汉字为16′16点阵、提高型汉字为24′24点阵、48′48点阵等。如果是24′24点阵,每行24个点就是24个二进制位,存储一行代码需要3个字节。那么,24行共占用3′24=72个字节。计算公式:每行点数/8′行数。依此,对于48′48的点阵,一个汉字字形需要占用的存储空间为48/8′48=6′48=288个字节。
热心网友
时间:2022-06-25 10:22
不同级别的标准,汉字库的数量也有所不同。
按照GB2312,其规定的汉字库包含6763个常用汉字。
到了GB18030,其规定的汉字库已大幅扩充到70244个(其实不仅仅是“汉”字,很多少数民族的文字也已经归纳并收集入此版本的库中)。
热心网友
时间:2022-06-25 10:22
汉字库有多少个。“字库”这个说法比较含糊,可能涉及字符编码、字符集、字体文件等多个概念。
说说几点
1、汉字的字体支持多少个,由具体的字体文件的内容决定。比如现在的win自带的简体楷体simkai,只支持gb2312的6000多个汉字,用做unicode时,也只支持其中的6000个字符,繁体字就不会显示。简体宋体支持1万多个汉字。
2、汉字编码支持多少个汉字由字符集决定。gb2312的字符集约6000多,gbk约1-2万,gb18030约6万。
3、字符集不等于编码。unicode字符集现在已经达到11万多个字符。把unicode转换成机内码有的多种编码,utf7,8,16,32等等。其中你说的2个字节的unicode,是早期的unicode2.0版,现以被淘汰的一种UTF16格式,又叫UCS-2. 比较有名的用例是Java和C的wchar。现行的UTF-16每个字符输出2或4个字节。4个字节下可以支持的字符数量将上亿,不用担心不够码位codepoint的问题。