问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

光学字符识别的识别技巧

发布网友 发布时间:2022-05-10 21:43

我来回答

1个回答

热心网友 时间:2023-11-04 03:24

1.分辨率的设置是文字识别的重要前提。一般来讲,扫描仪提供较多的图像信息,识别软件比较容易得出识别结果。但也不是扫描分辨率设得越高识别正确率就越高。选择300dpi或400dpi分辨率,适合大部分文档扫描。注意文字原稿的扫描识别,设置扫描分辨率时千万不要超过扫描仪的光学分辨率,不然会得不偿失。下面是部分典型设置,仅供参考。
(1)1、2、3号字的文章段,推荐使用200dpi。
(2)4、小4、5号字的文章段,推荐使用300dpl
(3)小5、6号字的文章段,推荐使用400dpl
(4)7、8号字的文章段,推荐使用600dpi。
2. 扫描时适当地调整好亮度和对比度值,使扫描文件黑白分明。这对识别率的影响最为关键,扫描亮度和对比度值的设定以观察扫描后的图像中汉字的笔画较细但又不断开为原则。进行识别前,先看看扫描得到的图像中文字质量如何,如果图像存在黑点或黑斑时或文字线条很粗很黑,分不清笔画时,说明亮度值太小了,应该增加亮度值在试试;如果文字线条凹凸不平,有断线甚至图像中汉字轮廓严重残缺时,说明亮度值太大了,应减小亮度后再试试。
3.选好扫描软件。选一款好的适合自己的OCR软件是作好文字识别工作的基础,一般不要使用扫描仪自带的OEM软件,OEM的OCR软件的功能少、效果差,有的甚至没有中文识别。
再选一个图像软件,第一,OCR软件不能识别所有的扫描仪;第二,也是最关键的,利用图像软件的扫描接口扫描出来的图像便于处理。
4.如果要进行的文本是带有格式的,如粗体、斜体、首行缩进等,部分OCR软件识别不出来,会丢失格式或出现乱码。如果必须扫描带有格式的文本,事先要确保使用的识别软件是否支持文字格式的扫描。也可以关闭样式识别系统,使软件集中注意力查找正确的字符,不再顾及字体和字体格式。
5.在扫描识别报纸或其他半透明文稿时,背面的文字透过纸张混淆文字字形,对识别会造成很大的障碍。遇到该类扫描,只要在扫描原稿的背面附。盖一张黑纸,扫描时,增加扫描对比度,即可减少背面模糊字体的影响,提高识别正确率。
6.一般文本扫描原稿都为黑、白两色原稿,但是在扫描设置时却常将扫描模式设为灰度模式。特别是在原稿质量较差时,使用灰度模式扫描,并在扫描软件处理完后再继续识别,这样会得到较好的识别正确率。值得注意的是OCR识别软件可以自己确定阀值,几个百分点的阀值差异,可能就会影响识别的正常进行。当然,得到的图像文件的大小会比黑白文件大很多。在进行大批量文稿扫描时,必须对原稿进行测试,找到最佳的阀值百分比。
7.遇到图文混排的扫描原稿,首先明确使用的识别软件是否支持自动分析图文这一功能。如果支持的话,在进行这类扫描识别时,OCR软件会自动计算出文本的内容、位置和先后顺序。文字部分可以按照标示顺序正常识别。
8.手动选取扫描区域会有更好识别效果。设置好参数后,先预览一下,然后开始选取扫描区域。不要将要用的文章一股脑儿选在一个区域内,因为现在的文章排版为了追求更好的视觉效果,使用图文混排的较多,扫成一幅图像会影响OCR识别。因此,要根据实际情况将版面分成N个区域,怎么划分区域呢?每一区域内的文字字体、字号最好一致,没有图形、图像,每一行的宽度一致,遇到长短不一,再细分,一般一次最多可扫描10个选区。根据不同情况,合理地设置识别区域的顺序。不要嫌这个过程太烦,那可是提高识别率的有效手段。注意各识别区域不能有交叉,做到一切觉得完好以后再进行识别。这样一般的识别率会在95%以上,对于识别不正确的文字进行校对后,就可以进入相应的文字处理软件进行所需的处理了。
9.在放置扫描原稿时,把扫描的文字材料一定要摆放在扫描起始线正中,以最大限度地减小由于光学透镜导致的失真。同时应保护扫描仪玻璃的干净和不受损害。文字有一定角度的倾斜,或者是原稿文字部分为不正规排版,必须在扫描后使用旋转工具,进行纠正;否则OCR识别软件会将水平笔划当做斜笔划处理,识别正确率会下降很多。建议用户尽量将扫描原稿放正,用工具旋转纠正会降低图像质量,使字符识别更加困难。
10.先预览整体版面,选定要扫描的区域,再用放大预览工具,选择一小块进行放大显示到全屏幕,观察其文字的对比度,文字的深浅浓度,据情况调整阀值的大小,最终要求文字清晰,不浓(文字成团),不淡(文字断笔伐),一般在阀值80左右为宜,最后再扫描。
11.用工具擦掉图像污点,包括原来版面中的不需要识别的插图、分隔线等,使文字图像中除了文字没有一点多余的东西;这可以大提高识别率并减少识别后的修改工作。
12.如果要扫描印刷质量稍微差一些的文章,比如说报纸,扫描的结果将不会黑白分明,会出现大量的黑点,而且在字体的笔画上也会出现粘连现象,这两项可是汉字识别的大忌,将严重影响汉字识别的正确率。为获得较好的识别结果,必须仔细进行色调调节,反复扫描多次才能获得比较理想的结果。另外由于报纸很薄且大部分纸质不高,导致扫描仪上盖板不能完全压住报纸(有缝隙),所以一般情况下报纸的扫描识别效果没有杂志的效果好。解决办法是在报纸上压一至两本16K的杂志,效果还是不错的。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
器世间的意思是什么 学吉他大概学费是多少 电吉他培训一般学费多少 天津吉他培训成人班费用多少 吉他培训班一般的学费多少钱 电脑怎么保存下载的视频文件怎么把视频保存到电脑上 双子座男生如果受到伤害死心了'是不是无论怎么做都无法挽回了。 和平精英微信怎么切换账号 更新之后换号方法 有关说说搞笑幽默句子的短句(寻找搞笑幽默的快乐) 说说你多大了,看看能不能做我干闺女怎么回复? c语言输入数字怎么识别为字符串 java中如何实现字符的识别 识别字符串中的每一个字符c++ 华硕主板的电脑如何进入安全模式?按了F8之后进入了一个“请选择启动设备”的界面 华硕笔记本电脑一开机就进入bios设置界面,进不去系统怎么办?Launch CSM选不了 python对于做SEO主要有什么作用 你好,华硕笔记本电脑开机启动到选择系统这里要按回车键才启动。 美味素饺子可水煮,可生煎,怎么吃随你喜欢 水饺竹筏妙招:怎么煮水饺不粘锅 汤饺还是蘸饺 水煮饺子的蘸料怎么做 七匹狼现在是不是在走下坡路?是不是一年不如一年,那与狼共舞呢?是不是都快要倒闭了?_百度问一问 周少雄的公司上市 七匹狼是贴牌还是有自己工厂? 有首歌开头大体意思是度瑞否的不了瑞wao,然后就开始wao哦waowao哦wao哦wao 到了中 NHM是什么意思? 求翻译歌词 机器不要 求日语达人帮忙 gu mao nao 韩语是什么意思 韩语中너무 mai wao yao什么意思 韩语孔哇嘛什么意思 用什么函数可以识别一串字符中有我要的四种不同字符 贵阳社保卡办理进度查询 拼多多退货东西还没退但已经退款怎么办? 贵州省社保卡进度查询 贵阳市社保卡制卡查询系统 好玩的打枪的游戏有哪些? 介绍几个打枪类游戏。谢谢!!! 有什么打枪游戏,最好玩的? 什么单机打枪游戏最好玩推荐几个 推荐几款打枪的单机游戏?画质要好点的 有没有打枪的游戏 谁给推荐一个好玩的打枪的单机游戏 打枪的单机游戏有哪些 有没有好玩刺激的打枪射击的游戏除了CS那种 个人工作背景怎么写? 好玩的联机打枪游戏 有什么打枪的游戏 什么是工作背景? 报告让写工作背景,工作背景具体都指什么啊? seo人员如何用Python进行数据分析?