发布网友 发布时间:2023-07-07 08:10
共2个回答
热心网友 时间:2024-11-25 10:39
就算是中国人读汉语也难免偶尔遇到分词障碍,当然显然比外国人要少得多。但是人比计算机屌的地方在于,人一旦发现自己遇到了分词障碍,就会寻找各种蛛丝马迹甚至通过学习新知识最终来解决这个问题,计算机就不行了。所以这就是为什么计算机无论把什么事情都做得很好,整体上看起来也很蠢一样,因为errorrecovering跟人类比起来实在是烂爆了。就算是很简单的一件事情,errorrecovering也是很难做的。而准确率最高的学术结果也只有95%,而人类基本可以做到100%的分词,而且可以在一句话中看出不同分词带来的不同意思。而值得注意的是,有些语言在书写和阅读时是分好词的,有些语言在书写和阅读时是没有分词的。
热心网友 时间:2024-11-25 10:40
分词这回事,其实自古以来就是一个很有意思的事情,在古时候人们立碑记一些东西的时候是没有标点符号的,后人们在研究碑文的时候通常就使用拓片将碑文拓印下来然后再进一步理解,于是就出现了一门叫做学问叫做“句读”。古时称文词停顿的地方叫做句或读。连称句读时,句是语意完整的一小段,读是句中语意未完,语气可停的更小的段落。古文是没有像现在的标点符号的,因此需要“明句读”(《三字经》对学生有明确要求,要求要“明句读”)。如果不懂句读,往往会造成误读、误解原意。如唐代文学家韩愈在《师说》中就有“句读之不知,惑之不解,或师焉,或不(fǒu)焉,小学而大遗,吾未见其明也”的句子。古代中文在书写上原本是没有标点符号的设计,但是在阅读时为求语气的顺畅和正确的传达意思,仍有需要注意文句的起承转合,读书人便会在文章中自行加注记号,这就是句读的由来。所以说不仅仅是外国人,对于我们中国人来说,分词断句也是一个很难的问题,我们日常中感觉不到这样的问题是因为我们的生活经验和语言习惯所致,但是这样的理解问题还是的的确确存在的。中文分词(ChineseWordSegmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。