关于德文图书ocr

GREAT-DATI · 2008-05-21

最近在尝试ocr一些德文图书，有一些心得也有一些困惑：

首先准备好工具，abbyy与adobe的专业破解版是必不可少的，这些都可以在电驴上下到，注意要有相应的语言库，如德语、希腊语等。

现成的pdf，无论是图片的还是文字的，abbyy都可以识别，这个软件的功能令人叹服，而且我发现200dpi的pdf也是可以很好识别出来的，所以扫描时不必一定要300dpi。德文哲学书一般都有希腊文，所以在识别时选中德文和希腊文两种语言一起识别，但要注意的是，保存后的word文档中，希腊文显示是正常的，但只要稍微改动并保存后，再打开时希腊文就成乱码了。我不知道其原因何在，但找到了一个笨方法，就是将保存下的原word内容复制到新的word文档中，这样就不会出现这个问题。

500页的图片pdf识别成文档，大概需要5个小时，如果是从扫描开始算起，则时间需要更多。按照黑白模式扫描出的pdf，识别速度要快于灰度模式的pdf，所以还是建议前者。
识别完成后还需要校对工作，因此图书的ocr是非常费时的工作，当然其成果也有其便利之处。

lalun · 2008-05-21

回复: 关于德文图书ocr

请问怎么把照片式pdf 转换成文档式pdf？

昨天下了几百个M 的拉丁教父集http://www.archive.org/search.php?query=Patrologiae AND mediatype:texts
效果不是很好

GREAT-DATI · 2008-05-21

回复: 关于德文图书ocr

lalun 说:
请问怎么把照片式pdf 转换成文档式pdf？

昨天下了几百个M 的拉丁教父集
效果不是很好

图片式pdf无法直接转成文字pdf，必须先转成文档再转成pdf。

au · 2008-05-22

回复: 关于德文图书ocr

CAJViewer7.0也不错。它的中英文识别率很高，速度也很快。但是在德文识别时，经常忘记字母上面的“小帽子”，这个缺点也许在后续版本中能解决。

wsmyh · 2008-05-22

回复: 关于德文图书ocr

受益,谢谢.体会差不多.
我用的是Adobe专业版,效果似乎还可以.我以前用Adobe阅读版时,图片模式的PDF就ocr不了.对使用Adobe专业版的人,似不必事先就ocr整本书,读时ocr几页即可.当然,ocr整本书,可以极大地方便阅读版使用者.既然Adobe专业版免费下载很方便,应该大力提倡使用专业版.
许多简单的知识,仍然有必要普及.因为天下事就这样,局外人不知内情,往往就以为很难.当我兴奋地告诉弟弟自己的新发现——金山词霸鼠标取词能使读小说变得很轻松,他笑说他已使用数年.我问他为什么不早告诉我,他说,我怎么知道你不知道啊?!但许多年里我就不知道！没人告诉我怎么回事，我就一直想当然以为金山词霸与坊间电子词典大同小异，没多大价值；而自己对读英文小说一直是有畏难情绪的。据我所知，许多人至今仍然不知道这么个好东东，否则对学英语就不会那么畏惧了。———发现了Adobe专业版+灵格斯的妙处，德法希等语似乎也变得亲切了！相信灵格斯会圆许多中年学者少年梦的，会帮许多青年学子早圆梦的！

GREAT-DATI · 2008-05-22

回复: 关于德文图书ocr

wsmyh 说:
受益,谢谢.体会差不多.
我用的是Adobe专业版,效果似乎还可以.我以前用Adobe阅读版时,图片模式的PDF就ocr不了.对使用Adobe专业版的人,似不必事先就ocr整本书,读时ocr几页即可.当然,ocr整本书,可以极大地方便阅读版使用者.既然Adobe专业版免费下载很方便,应该大力提倡使用专业版.
许多简单的知识,仍然有必要普及.因为天下事就这样,局外人不知内情,往往就以为很难.当我兴奋地告诉弟弟自己的新发现——金山词霸鼠标取词能使读小说变得很轻松,他笑说他已使用数年.我问他为什么不早告诉我,他说,我怎么知道你不知道啊?!但许多年里我就不知道！没人告诉我怎么回事，我就一直想当然以为金山词霸与坊间电子词典大同小异，没多大价值；而自己对读英文小说一直是有畏难情绪的。据我所知，许多人至今仍然不知道这么个好东东，否则对学英语就不会那么畏惧了。———发现了Adobe专业版+灵格斯的妙处，德法希等语似乎也变得亲切了！相信灵格斯会圆许多中年学者少年梦的，会帮许多青年学子早圆梦的！

您可以尝试一下babylon，此利器的方便之处远远超乎想象。

关于德文图书ocr

GREAT-DATI

人文贵宾

lalun

知名会员

GREAT-DATI

人文贵宾

au

版主

wsmyh

荣誉会员

GREAT-DATI

人文贵宾