ocr识别是什么意思目录
ocr识别是什么意思
OCR识别,全称是“Optical Character Recognition”,即光学字符识别,是指使用电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。简单来说,OCR技术是将纸质文档中的文字转换成黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。OCR技术广泛应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理等领域。
ocr什么意思
OCR是英文optical character recognition的缩写,意思是:文字识别
OCR(optical character recognition)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。
如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。
衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。
扩展资料
应用:
OCR文字识别很重要的一个技术参数,就是识别率。
就拿身份证识别来举例子,就会涉及到两个问题。
身份证识别出来的最终目的是要有格式,供直接录入系统,姓名项、地址项、身份证号项都黏在一起,就没办法使用了;
目前身份证识别率能达到98%以上,如果拿通用OCR文字识别来识别,识别率达不到如此高识别率,需要专门针对身份证进行校正优化。
所以OCR文字识别根据特殊识别内容,形成了多个产品出来。
根据应用场景来区分需求。
云端的会涉及到网络延时和流量产生费用等,但微信工作号之类的,只能使用这种方式。
参考资料来源:
什么是OCR
汉字识别OCR("光学字符识别"的英文编写)是为了使汉字信息高速输入计算机,以解决低速的信息输入与高速信息处理之间的矛盾,从而提高整个计算机系统的效率。
这种根据汉字人工编码录入汉字文本的方法,从根本上改变了人们对计算机汉字人工编码录入的概念。
使人们从繁重的键盘录入汉字的劳动中解脱出来。
只要用扫描仪将整页文本图像输入到计算机,就能通过OCR软件自动产生汉字文本文件,这与人手工键入的汉字效果是一样的,但速度比手工快几十倍。
所以OCR产品的推广意义是深远的。
提高OCR识别率
购买了扫描仪,你一定会发现,附赠的软件中有中英文OCR识别软件,当然一般都是基础版。
很多人认为此类OCR的识别率不是很高,甚至怀疑只有那些正版的数千元的OCR软件其识别率才很高。
其实,你只要注意使用技巧,此类OCR的识别率完全可达实用化水平。
1、处理原稿扫描图像,使之清晰可“辨”。
在其它因素都满足的前提下,对一般的印刷稿、打印稿(包括清晰的针打稿)等质量较好的文稿进行识别,其识别率一般可达到98%以上。
而对报纸、复印件等不太清晰的文稿进行识别,无论哪种OCR都难以达到较高的识别率。
对那些原稿不太清晰的,要注意识别前对图像加以处理,除去其上的污迹。
并注意将偏斜的版面“改斜归正”,通常OCR软件均有此功能,且一般都设有自动纠偏和手动纠偏。
2、分辨率应选择适宜。
一般选择300dpi较合适,分辨率选小了会使识别率降低,选得太大了并不能有效提高识别率,还会大幅度加长文件长度,浪费处理时间。
有的扫描软件设备上有一项“OCR扫描”,干脆将分辨率锁定为300dpi,这是很有道理的。
3、调整好亮度值和对比度值。
这条非常关键,对识别率的影响很大。
亮度值的调整是在识别前,先看看扫描得到的图像中文字质量如何,如果文字线条凹凸不平,甚至有断线,说明亮度值太大了,应减小亮度值;当文字线条很黑很粗,甚至挤成了黑疙瘩,分不清笔划时,则说明亮度值太小了,应增加亮度值;对比度的调节要视原稿确定,笔者常根据预扫时图像清晰度确定。
4、利用OCR的自学习功能。
有时OCR对某些字总是难以识别,比如OCR开始对“的”和“二”等字总是搞错,这时可以利用OCR软件的自学习功能,“引导”它正确识别一次(有些不同的字体各需一次),它以后就对这些字“熟识”了。
具体操作极易,上机看一下菜单即可明白。
另外,若原稿全是英文或其中中文很少,最好用附赠的英文OCR软件。
还有,现在已有一些很好的文字校对软件,其中一般都设置了OCR校对,利用这些软件先行处理一下所得文本文件,则可大大减轻人工校对负担。
ocr是什么意思啊?
ocr的中文意思是光学字符识别。
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
OCR是针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
扩展资料:
识别技巧
1、分辨率的设置是文字识别的重要前提。
一般来讲,扫描仪提供较多的图像信息,识别软件比较容易得出识别结果。
但也不是扫描分辨率设得越高识别正确率就越高。
选择300dpi或400dpi分辨率,适合大部分文档扫描。
注意文字原稿的扫描识别,设置扫描分辨率时千万不要超过扫描仪的光学分辨率,不然会得不偿失。
2、扫描时适当地调整好亮度和对比度值,使扫描文件黑白分明。
这对识别率的影响最为关键,扫描亮度和对比度值的设定以观察扫描后的图像中汉字的笔画较细但又不断开为原则。
3、选好扫描软件。
选一款好的适合自己的OCR软件是作好文字识别工作的基础,一般不要使用扫描仪自带的OEM软件,OEM的OCR软件的功能少、效果差,有的甚至没有中文识别。