iCourt 是一家与众不同的法学院,在这里学习12门律师执业必备课程,掌握超人一步的思维、强大的技能与高效的工具,联结5000名律界同行者。我们还为您配备最 新MacBook、专业数据库和不断更新的云课堂。长按二维码联系课程顾问诺诺多(inuonuoduo),成为iCourter。
投稿请联络微信:huangln5
法律人,还在苦逼地手打录入吗?试试这些文本识别软件
作者:上官明泓
单位:北京大成(宁波)律师事务所
根据维基百科的解释,光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。体验过谷歌、超星数字图书馆,反正我是相信标准印刷体文本的识别率已经达到99%以上。
老马说:OCR技术发展到现在,识别率差异已经很小了,差异都在图像上。分辨率太低,笔画粘连,识别结果太不令人放心。从人眼的角度来看,可能150dpi已经“足够清晰”,所以就以为150dpi和300dpi是一回事,但从机器的视角看,二者清晰度存在本质的差异,所以150dpi OCR的结果哭笑不得,300dpi则大不同。
若要诉讼档案数字化,请参阅推荐性国标《GB/T 31219.3-2014 图书馆馆藏资源数字化加工规范 第3部分:图像资源 》。
以下结合实例,展示各软件的效果。样张:
1.Abbyy FineReader
来自战斗民族,是世界排名第一的 OCR 文字识别工具,重量级的。只喷,在进行批量识别的时候消耗大量内存、CPU资源。
2.文通TH-OCR免费版
轻量级的,内存、CPU占用率小。北京文通科技有限公司是享誉国内外的OCR技术生产商、文档影像技术和应用解决方案提供商,软件产品及技术被微软、IBM、HP等公司所采用,文字识别的研究水平和成果在世界上得到了较普遍的认可。
3.汉王PDF OCR(免费)
轻量级的,内存、CPU占用率小。汉王科技股份有限公司,是全球文字识别技术与智能交互产品引领者,在手写识别、OCR、笔迹输入等领域拥有多项具有自主知识产权的核心技术, OCR获得国家科技进步二等奖。OCR领域市场占有率超过50%,处于绝对优势地位,微软、三星、LG、联想等厂商相继采用汉王技术。
4.Office Lens
大公司微软出品,支持中文OCR文字识别的App,重点是完全免费,点赞。
以上软件或App,均可轻松上手。
联系客服