来也科技技术团队|基于语义的OCR纠错实现
发布网友
发布时间:2024-10-02 04:02
我来回答
共1个回答
热心网友
时间:2024-12-01 05:08
来也科技技术团队通过深入研究和实践,发现其OCR技术在长尾问题上的识别准确率仍有提升空间。针对这一挑战,他们选择了一种创新的解决方案——在OCR的文本行内容识别阶段后增加一个纠错模块。该模块基于OCR模型的整体架构,主要由两阶段构成:文本行检测和识别。识别模型采用多任务训练策略,以提高识别准确率。
在需求分析阶段,团队着重考虑了业务问题、训练数据需求以及模型性能。由于来也科技的OCR错误主要由干扰和形近字引起,他们决定采用非有监督的轻量级模型,无需大量标注样本,以适应现有的OCR效果和节省计算资源。模型设计上,他们采用了Soft-Masked BERT的思路,将任务分为错误字检测、纠正字召回和纠正字排序三部分。
错误字检测利用OCR的softmax概率进行,当概率高于特定阈值时,认为识别正确。纠正字召回则通过自监督的MLM模型,预测被遮盖字符,模型采用Transformer Encoder设计,通过捕捉字符间的相关性提高纠错效果。排序模块则依赖于字符形状相似度,结合OCR特征向量和图片相似度计算,确保选出最准确的字符。
实践结果显示,这些改进在内部测试集合上带来了显著的提升,成功纠正了诸如字符过小、红章干扰等问题。来也科技的OCR纠错技术在保持高精度的同时,进一步优化了识别长尾场景的性能,展现了技术团队的创新和专业实力。