软件:超星3.61及其破解,acrobat 5.01正式版,清华TH-OCR 2000千禧专业版。网上均可下载。(pdffactory)
方法:下载后,用acrobat的虚拟打印机distiller打印成pdf。(用pdffactory可一次将目录、正文打印成一个文件,方法见其帮助,若要识别,则不推荐使用)。然后用acrobat另存为tif格式,会自动生成一页一个的tif文件。然后用清华TH-OCR 2000千禧专业版批量导入识别成文本格式。
注意,打印是一定要彩色打印,两值黑白打印的识别率在60%左右,不可用。
-------------------------------------------------------------------
我只能做到一次虚拟打印十页,而且无法进行其它的转换,如果用图象工具一页页的拷贝太麻烦了!
采用转换成TXT,转换成HTML都没有成功!还请大家想想办法!