GREAT-DATI
人文贵宾
最近在尝试ocr一些德文图书,有一些心得也有一些困惑:
首先准备好工具,abbyy与adobe的专业破解版是必不可少的,这些都可以在电驴上下到,注意要有相应的语言库,如德语、希腊语等。
现成的pdf,无论是图片的还是文字的,abbyy都可以识别,这个软件的功能令人叹服,而且我发现200dpi的pdf也是可以很好识别出来的,所以扫描时不必一定要300dpi。德文哲学书一般都有希腊文,所以在识别时选中德文和希腊文两种语言一起识别,但要注意的是,保存后的word文档中,希腊文显示是正常的,但只要稍微改动并保存后,再打开时希腊文就成乱码了。我不知道其原因何在,但找到了一个笨方法,就是将保存下的原word内容复制到新的word文档中,这样就不会出现这个问题。
500页的图片pdf识别成文档,大概需要5个小时,如果是从扫描开始算起,则时间需要更多。按照黑白模式扫描出的pdf,识别速度要快于灰度模式的pdf,所以还是建议前者。
识别完成后还需要校对工作,因此图书的ocr是非常费时的工作,当然其成果也有其便利之处。
首先准备好工具,abbyy与adobe的专业破解版是必不可少的,这些都可以在电驴上下到,注意要有相应的语言库,如德语、希腊语等。
现成的pdf,无论是图片的还是文字的,abbyy都可以识别,这个软件的功能令人叹服,而且我发现200dpi的pdf也是可以很好识别出来的,所以扫描时不必一定要300dpi。德文哲学书一般都有希腊文,所以在识别时选中德文和希腊文两种语言一起识别,但要注意的是,保存后的word文档中,希腊文显示是正常的,但只要稍微改动并保存后,再打开时希腊文就成乱码了。我不知道其原因何在,但找到了一个笨方法,就是将保存下的原word内容复制到新的word文档中,这样就不会出现这个问题。
500页的图片pdf识别成文档,大概需要5个小时,如果是从扫描开始算起,则时间需要更多。按照黑白模式扫描出的pdf,识别速度要快于灰度模式的pdf,所以还是建议前者。
识别完成后还需要校对工作,因此图书的ocr是非常费时的工作,当然其成果也有其便利之处。