各种格式文件ocr成word文件的方法

上一篇 / 下一篇  2009-05-17 09:15:17 / 天气: 晴朗 / 心情: 高兴

各种格局文件ocr成word文件的办法

ni还在为不同格局的文件怎么变成word文件发愁吗?各种识别软件各有缺点,识别效力低,让ni痛苦不堪,有的只能辨认字,对表格和图形无能为力,识别完了,版面乱七八糟,无法使用。现在好了,本文针对各种情形下文字识别进行总结,辅助大家控制准确方式,节俭时光,本文给出了所有情形下全文件表格、图形、文字识别的完善解决计划:

1、PDF文件的识别:

1)文件可以直接识别的(以文本情势保留的PDF文件):安装acrobat 7专业版,注意不是acrobat reader,直接另存为rtf文件(识别整个文件),丁香,或者选择工具栏上的文字选择按钮,然后选择文字区域,然后复制到word等中。

2)文件不能直接识别的(以图片情势保留的PDF文件):安装office2003,并装上office工具Microsoft Office Document Imaging(完整安装此工具),然后在打印机里面会增添Microsoft Office Document Image Writer打印机,然后将PDF文件打印到此打印机,选择打印形成的文件的保留地位,然后会主动形成一个MDI文件,并且主动用Microsoft Office Document Image打开此文件,然后选择“工具”菜单下的“使用ocr识别文本”,识别完成后,在选择“工具”下的,“将文本发送到word”,最后将把整个PDF文件识别输出到word文件中。

注意:Microsoft Office Document Image可以非常正确的全文件识别转化中文、英文、表格,但是无法将图形输出到word,而是把文件中的所有图形单独形成一个个独立的图片文件,放在雷同地位的一个雷同名称的文件夹中,因此可用snagit软件将图形打开,然后复制到word中。(所有的识别软件都不能很好的处置图形的识别问题,Microsoft Office Document Image的这种处置方式已经是非常好的解决这个问题了。)


3)加密的Pdf文件:先下载解密软件,解密后在参看1),2)
4)繁体pdf文件:用2)的办法识别到word后,用word中的“工具”--“语言”---“中文繁简转换”


2、caj文件的辨认:

1)局部文字识别:直接使用caj阅读器的ocr
2)全文件识别:打印到Microsoft Office Document Image Writer打印机,后面和上面的2)操作一样
3)博硕论文全文下载:在线浏览博硕论文,待可以看到最后一页后,不要关闭caj阅读器,到caj安装目录下cache中找到一个较大的文件,拷贝到其ta地位即可。然后使用2)全体转化为word。


3、超星文件的辨认:

1)局部文字识别:直接使用超星阅读器的ocr
2)全文件识别:打印到Microsoft Office Document Image Writer打印机,后面和上面的2)操作一样,要注意的是,超星打印功效有点区别,因为超星是目录和全文离开的,所以打印时,须要分离把目录和正文识别到word中,在合并到一起。打印时要填入打印页码从1到最后一页,不要选择打印全体。此外在打印选项中,还要将页面比例设成真实大小,而不是整宽。注意:识别速度比其ta格局要慢很多,请坚持耐烦,但是最后当ni看到轻松的生成全本书的word版本时,ni会欣喜若狂的,呵呵。wo的实验成果是一本280页的书,识别须要几分钟的时光。

3)超星相对照较麻烦一些,如果还有问题,可以先把超星打印成完全的pdf文件,然后在用1、的方式转成word


4、其ta情况下的识别:

使用snagit软件将任何情势的文字可以变成图片,例如使用snagit将屏幕拷贝成图片,然后右键点击图片文件,用microsoft Office Document Image打开图形,其ta和2)一样。


注意:其ta的各种识别软件请不要在用,因为要么只能识别中文,要么只能识别英文,要么不能识别整个文件,要么不能识别屏幕拷贝图像,要么识别误差很大,要么不能识别表格,要么须要注册,要么识别速度很慢,要么使用不便(和word联合不紧),这些软件包含:紫光ocr,万方pdfocr,尚书,汉王,ScanSoft PDF Converter,pdf2word,以及各种被推举的软件等等,wo都装过,现在都像LJ一样删除了。只要安装了acrobat 专业版,snagit,office2003,现在ni可以完善的做任何事,最主要的是这几个软件很好得到。

针对一些问题的弥补:
经过一些实验,发明microsoft Office Document Image 存在一些不稳固的问题,例如在用caj打印到Microsoft Office Document Image Writer打印机时,发明用caj5.5版本比拟快,(caj5.5不能加升级补丁),而caj5.0有时呈现假死机。
另外页面显示大时,转化的识别率较高。
如果页数多的文件,包含超星,如果有问题,可以分多次转化。

再次弥补:
1、由于虚拟打印到Microsoft Office Document Image Writer 比拟慢,并且形成的虚拟文件很大,1本200多页的书大约是60M,因此会严重影响机器的运行速度和C盘空间以及内存空间,建议配置好的机器一次转化不要超过200页,配置差的不要超过100页,同时打印时在右下角体系栏中会呈现打印机图,ni可以双击,看到打印义务的进度,以免认为死机了。另外转化完成后请删除c:\windows\temp目录下的虚拟打印文件,否则ni的c盘很快会被用光。

2、建议如果产生打印到Microsoft Office Document Image Writer很慢或者假死的情形,可以先打印到snagit虚拟打印机,会主动生成tiff文件,速度比Microsoft Office Document Image Writer快,然后在snagit中,选择打印机为Microsoft Office Document Image Writer打印机,(相当于再打印到Microsoft Office Document Image Writer打印机),然后选择snagit---outputs下的printer,然后选择snagit----file----finish output,即可生成msi文件,其ta一样。转化完成后请删除c:\windows\systems32\snagit临时文件。相关的主题文章:

TAG: 丁香

日历

« 2021-12-08  
   1234
567891011
12131415161718
19202122232425
262728293031 

数据统计

  • 访问量: 19592
  • 日志数: 1040
  • 建立时间: 2009-05-13
  • 更新时间: 2009-06-07

RSS订阅

Open Toolbar