关于德文图书ocr

GREAT-DATI

人文贵宾
最近在尝试ocr一些德文图书,有一些心得也有一些困惑:

首先准备好工具,abbyy与adobe的专业破解版是必不可少的,这些都可以在电驴上下到,注意要有相应的语言库,如德语、希腊语等。

现成的pdf,无论是图片的还是文字的,abbyy都可以识别,这个软件的功能令人叹服,而且我发现200dpi的pdf也是可以很好识别出来的,所以扫描时不必一定要300dpi。德文哲学书一般都有希腊文,所以在识别时选中德文和希腊文两种语言一起识别,但要注意的是,保存后的word文档中,希腊文显示是正常的,但只要稍微改动并保存后,再打开时希腊文就成乱码了。我不知道其原因何在,但找到了一个笨方法,就是将保存下的原word内容复制到新的word文档中,这样就不会出现这个问题。

500页的图片pdf识别成文档,大概需要5个小时,如果是从扫描开始算起,则时间需要更多。按照黑白模式扫描出的pdf,识别速度要快于灰度模式的pdf,所以还是建议前者。
识别完成后还需要校对工作,因此图书的ocr是非常费时的工作,当然其成果也有其便利之处。
 

GREAT-DATI

人文贵宾
回复: 关于德文图书ocr

请问怎么把照片式pdf 转换成 文档式pdf?

昨天下了几百个M 的 拉丁教父集
效果不是很好
图片式pdf无法直接转成文字pdf,必须先转成文档再转成pdf。
 

au

版主
回复: 关于德文图书ocr

CAJViewer7.0也不错。它的中英文识别率很高,速度也很快。但是在德文识别时,经常忘记字母上面的“小帽子”,这个缺点也许在后续版本中能解决。
 

wsmyh

荣誉会员
回复: 关于德文图书ocr

受益,谢谢.体会差不多.
我用的是Adobe专业版,效果似乎还可以.我以前用Adobe阅读版时,图片模式的PDF就ocr不了.对使用Adobe专业版的人,似不必事先就ocr整本书,读时ocr几页即可.当然,ocr整本书,可以极大地方便阅读版使用者.既然Adobe专业版免费下载很方便,应该大力提倡使用专业版.
许多简单的知识,仍然有必要普及.因为天下事就这样,局外人不知内情,往往就以为很难.当我兴奋地告诉弟弟自己的新发现——金山词霸鼠标取词能使读小说变得很轻松,他笑说他已使用数年.我问他为什么不早告诉我,他说,我怎么知道你不知道啊?!但许多年里我就不知道!没人告诉我怎么回事,我就一直想当然以为金山词霸与坊间电子词典大同小异,没多大价值;而自己对读英文小说一直是有畏难情绪的。据我所知,许多人至今仍然不知道这么个好东东,否则对学英语就不会那么畏惧了。———发现了Adobe专业版+灵格斯的妙处,德法希等语似乎也变得亲切了!相信灵格斯会圆许多中年学者少年梦的,会帮许多青年学子早圆梦的!
 

GREAT-DATI

人文贵宾
回复: 关于德文图书ocr

受益,谢谢.体会差不多.
我用的是Adobe专业版,效果似乎还可以.我以前用Adobe阅读版时,图片模式的PDF就ocr不了.对使用Adobe专业版的人,似不必事先就ocr整本书,读时ocr几页即可.当然,ocr整本书,可以极大地方便阅读版使用者.既然Adobe专业版免费下载很方便,应该大力提倡使用专业版.
许多简单的知识,仍然有必要普及.因为天下事就这样,局外人不知内情,往往就以为很难.当我兴奋地告诉弟弟自己的新发现——金山词霸鼠标取词能使读小说变得很轻松,他笑说他已使用数年.我问他为什么不早告诉我,他说,我怎么知道你不知道啊?!但许多年里我就不知道!没人告诉我怎么回事,我就一直想当然以为金山词霸与坊间电子词典大同小异,没多大价值;而自己对读英文小说一直是有畏难情绪的。据我所知,许多人至今仍然不知道这么个好东东,否则对学英语就不会那么畏惧了。———发现了Adobe专业版+灵格斯的妙处,德法希等语似乎也变得亲切了!相信灵格斯会圆许多中年学者少年梦的,会帮许多青年学子早圆梦的!
您可以尝试一下babylon,此利器的方便之处远远超乎想象。
 
顶部