找回密码
 注册

微信登录,快人一步

QQ登录

只需一步,快速开始

查看: 5263|回复: 12

有什么办法将扫描的图片转换成WORD文档来修改里面的内容呢?

 火.. [复制链接]
发表于 2008-6-10 15:30 | 显示全部楼层 |阅读模式

马上注册登录,享用更多感控资源,助你轻松入门。

您需要 登录 才可以下载或查看,没有账号?注册 |

×
在扫描仪发展史上,文字识别软件(OCR)的出现,实现了将印刷文字扫描得到的图片转化为文本文字的功能,提供了一种全新的文字输入手段,大大提高了用户工作的效率,同时也为扫描仪的应用带来了进步。从此,扫描仪不再仅仅是图形、图像的输入工具,它真正的成为了电子化办公的有机组成部分。随之而来的是,扫描仪在金融、证券、政府等领域普遍应用,为人们摆脱纸制文档束缚,真正实现无纸化办公铺平了道路。

  目前在中国市场上销售的每一款Microtek扫描仪产品,都附赠了“尚书六号”文字识别软件。在颇具美名的“尚书五号”文字识别软件基础上,“尚书六号”又有了许多新的突破。它一改以前文字识别软件只能对“黑白二色”图像进行识别的限制,可以对彩色、灰度图像文件直接进行识别;尚书六号支持更多的扫描文件格式,例如TIFF、BMP和JPG格式;与此同时,尚书六号完善了表格识别功能,各式各样的表格几乎都可以原封不动的由图片格式转变为可以自由编辑的文字格式。最值得一提的是,“尚书六号”还加入了人性化设计,在软件安装完毕后,程序组图标里面会自动出现“尚书六号说明”,借助这本用户手册,即使是初学者也可以迅速掌握软件的使用。

  下面结合Microtek扫描仪的驱动软件ScanWizard 5,详细介绍如何配合尚书六号OCR软件做好文字识别工作:

  Step1:扫描图像文件

  建议首先点击桌面上ScanWizard 5软件的图标,进入Microtek扫描仪驱动软件的界面,直接进行扫描工作,而不需要启动其他的扫描程序或图像编辑程序,这样可以大大加快扫描进程。同时,注意将ScanWizard 5软件切换到高级工作模式(如图1所示),以便于用户检查扫描仪工作时的分辨率。在文字识别时,推荐使用的扫描分辨率设定在300ppi,色彩模式可以选择“RGB彩色”或者“灰阶”,选择“扫描到”的文件格式是TIF或者JPG两者都可以,然后将扫描得到的文件保存在用户确定的目录下面。
Step2:打开尚书六号读取扫描好的图像文件
Step3:被识别图片的预处理

  被识别图片的预处理工作主要包括“倾斜校正”和“设定正确识别区域”两个步骤。在进行“倾斜校正”时,可按下工具栏的最下面的一个“图像倾斜校正”工具按钮。系统会自动弹出一个对话框,提示需要校正的角度,此时按下“是”按钮,系统就给予图片做水平的倾斜校正。在此需要特别注意,“自动倾斜校正功能”只能对原稿做±2.8度的倾角的校正,如果原稿的倾斜角度大于2.8度,系统会建议用户重新扫描稿件,以提高识别率。

  如何“正确设定识别区域”,也是一个值得用户注意的地方:如“海尔”一文,实际是分成两个栏目进行阅读的,所以在设定识别区域的时候,注意需要将这个两个栏目分别圈定,也就是设定两个识别区域(如图2所示)。同时,对于一些文字稿件,如果在中间插有图片的时候,建议采用绕开的方式,对所环绕的文字分别进行识别区域的设定。此外,对于表格类的图片,为了将标题栏也能识别进去,建议将表格部分整个框选,同时标题作为一个单独的框选区域。





  Step4:开始进行识别

  在开始“识别”的时候,应注意识别软件的设定值是否正确,尤其注意识别字集的选择问题:如果要识别简体中文,请选择“简体字集”;如果要识别繁体中文,请选择“繁体字集”;在选择“纯英文字集”时,可以大幅提升英文字母的识别率。同时,“简体字集”和“繁体字集”也具有较强的识别英文的能力。

  Step5:识别校对完成后,进行保存

  在“尚书六号”文字识别软件中,存盘格式(也就是文件保存的类型)有四种,分别是:Word、Text、CSV、HTML。直接用Word格式保存时,可以用微软的Word软件打开,它可以相对比较完整的保存排版格式;但建议用户一般可选择Text(纯文本)格式保存,因为这种格式可以用几乎所有文档编辑器打开;如果用户进行表格识别,识别结果可以选择保存为CSV格式,这样用EXCEL就能够直接打开;而HTML格式是针对网页设计使用的,用IE等网络浏览器或网页编辑器可以打开。

  “尚书六号”OCR软件,文字识别的工作真的很简单,不知道现在是尚书几号了,功能都可以参照这样去做的。

[ 本帖最后由 safihu 于 2008-6-10 15:45 编辑 ]
回复

使用道具 举报

 楼主| 发表于 2008-6-10 15:36 | 显示全部楼层

回复 #40 hongkanghulibu 的帖子

Office 2003 中有一个名为 Microsoft Office Document Imaging 的工具。用数码相机把文档拍摄下来,然后用这个工具OCR图片中的字符,并直接发送至 Word 中,识别率达98%以上。
??只是这款软件要求的图片格式为‘TIFF’格式,需要事先把数码相机拍摄的 JPG 格式图片转换一下,当然,这也是很方便的。


Microsoft Office Document Imaging 没有这项功能的需要在OFFICE工具里选择安装。。。。。。。

[ 本帖最后由 safihu 于 2008-6-10 15:46 编辑 ]

1159415757.jpg
回复

使用道具 举报

发表于 2008-7-4 13:09 | 显示全部楼层
细看过的确是好东西,别让沉底了。我来顶一下。
回复

使用道具 举报

 楼主| 发表于 2008-7-5 23:31 | 显示全部楼层
回复

使用道具 举报

发表于 2012-1-1 17:07 | 显示全部楼层
“尚书六号”OCR软件我也用过,它能够把扫描仪扫描出来的图片转换成文字,不过,有部分的文字不能识别,出来的是错别字,要你自己手工更改。
回复

使用道具 举报

发表于 2012-1-1 17:51 | 显示全部楼层
咳咳,好帖子啊。
尚书、汉王都可以,不过个人更推荐只推荐史诗级软件ABBYY FineReader OCR Professional
嘿嘿
回复

使用道具 举报

发表于 2012-1-1 18:20 | 显示全部楼层
确实是好东西,我们公司也用。有时识别不出的自己改动一下就好。相信会帮助到很多会员。
回复

使用道具 举报

发表于 2012-1-2 08:04 | 显示全部楼层

RE: 有什么办法将扫描的图片转换成WORD文档来修改里面的内容呢?

safihu 发表于 2008-6-10 15:36
Office 2003 中有一个名为 Microsoft Office Document Imaging 的工具。用数码相机把文档拍摄下来,然后用这 ...

这个方法我也试过,确实方便而且准确,推荐!不能让此帖沉下去!
回复

使用道具 举报

发表于 2012-1-2 08:29 | 显示全部楼层
新年的第一个收获,太实用了,赶快收藏。谢谢楼主老师!
回复

使用道具 举报

发表于 2012-1-3 11:51 | 显示全部楼层
谢谢!好贴,值得很多人学习!顶.........
回复

使用道具 举报

发表于 2012-10-20 14:16 | 显示全部楼层
谢谢老师,资料很好借用了。
回复

使用道具 举报

发表于 2013-12-22 00:38 | 显示全部楼层
很有用哦。感谢楼主的辛勤劳动。
回复

使用道具 举报

发表于 2013-12-22 00:58 | 显示全部楼层
太好了,先保留着,慢慢看看吧,早就想要这东西了,2008年发的贴子,5年了,呵呵,不能沉了。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册 |

本版积分规则

关闭

站长推荐上一条 /1 下一条

快速回复 返回顶部 返回列表