- 积分
- 239
- 在线时间
- 小时
- 最后登录
- 1970-1-1
- 注册时间
- 2011-8-27
- 精华
- 主题
- 帖子
该用户从未签到
|
看完了全部回帖,首先對comme的辛苦和創造很佩服。
其次,前幾個星期很仔細地試過OFFICE 2010現在的OCR功能,也就是One Note打印到的功能,總體來説識別率不算是很高,有些失望。
第三,現在裝的是ABBYY finereader 10,基本功能我覺得已經很強大了。
遺憾是不能完整再現PDF或word的格式,只能部分保留或轉換出,這個如果是少數標題抽提為書簽,還能手動處理,如果是做大量内容書簽的細目整理,就相當費時間了(當然要比原先純手工處理已經強不知道哪裏去了);
另一個遺憾是到10爲止,ABBYY對亞洲語言還都不支持學習和用戶自定義模式,這樣就無法通過反復識別和修正提供分辨率,對於非標準的印刷體識別率就不夠高(手寫體如古鈔本就更難了,大概一般只能識別10%左右,必須而且只能靠學習模式來慢慢提高的)。
沒確定的一點,是ABBYY對於亞洲語言的OCR,是否能調用系統内所有的字體庫支持,我在使用中感覺它好像只是輸出和顯示環節可以調用系統載入的所有字體庫似的。這一點其實對於電子書識別/處理/製作也是非常非常重要的。
説到底,還是國内缺少自己的中文字體識別的算法和引擎問題吧,美國或俄羅斯的軟件開發縂不可能以中文微優先。
前幾天好像ABBYY finereader 11正式發佈了,不知道上面說的幾個問題改善沒有。
現在電腦裏裝很久win7 + Office 2010 + Acrobat Xpro了,但對電子書識別和處理的需求,又要至少ABBYY finereader 10甚至更好的功能,特別是古文獻資料的整理職別,還有書簽索引及檢索功能。
很期待有個強力OCR+靈活書簽+超級檢索的組合解決方案,那就真真是功德無量了,很多國學方面的工作都能以N倍甚至N次方的速度推行和進展了。。
|
|