国学数典

 找回密码
 注册

QQ登录

只需一步,快速开始

查看: 1973|回复: 7

[讨论] 自制图像与文本对应的资料库

[复制链接]
发表于 2012-12-3 16:19 | 显示全部楼层 |阅读模式
本帖最后由 shaoshi 于 2012-12-9 09:30 编辑

     我最常用、最喜欢用的看电子书的软件,是老马的ComicsViewer。一个文件内假如有有一个图像与一个文本文件同名,例如1.tif与1.txt,用ComicsViewer打开1.tif,就会同时显示图像与文本,而且可以编辑文本。换句话说,这是一个实用的文本校对编辑软件。

      因为如此,我一得到pdg电子书,总是用老马的Pdg2Pic软件转为tif图像。若得到pdf,则用Acrobat存为单页图像;若得到Djvu,则用Ifranview存为单页图像。有了单页图像,再用OCR软件批量做文字辨识。

      只要文字辨识的质量不太差,把名字相同的图像文件与文本文件放在同一个文件夹内。要用时,用Emeditor的“在文件中查找”功能,找出那个文本有我想找的文字,再用ComicsViewer打开图像,比对原文。

       虽然粗糙,但是每一本这样整理过的书,都是一个实用的、可检索的资料库。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

评分

1

查看全部评分

发表于 2012-12-3 19:00 | 显示全部楼层
“在文件中查找”是很慢的,而且,也会缩短你的硬盘寿命。

评分

1

查看全部评分

发表于 2012-12-4 02:51 | 显示全部楼层
楼主的方法不错,学着试一下,感觉很好,感谢
发表于 2012-12-12 16:54 | 显示全部楼层
但是单叶的tif 文件太多的话,管理起来比较麻烦,尤其是转移时,我还是习惯直接做成双层pdf 。
 楼主| 发表于 2012-12-12 18:23 | 显示全部楼层
我一直无法忍受Pdf,检索慢得不得了。双层Pdf我没用过,读时看到错字,是否能随见随改?我这样做,读时看到错字,可以随手就改了。改完后,用一个bat程式,把改过的文件备份到移动硬盘去。
 楼主| 发表于 2013-1-5 21:53 | 显示全部楼层

我本来用ComicsViewer 1.28,所存的文本为Gbk文本,一直用得很好。最近看到ComicsViewer2.06版出来了,改用新版。今天发现,原来新版把文本存为Unicode文本。我需要用Access程式导入Gbk文本,遇到Unicode文本,完全行不通了,大为头痛,赶快降级回ComicsViewer 1.28。
发表于 2013-1-7 01:22 | 显示全部楼层
楼主试试 ABBYY FineReader,还蛮好用
发表于 2013-1-7 09:00 | 显示全部楼层
shaoshi 发表于 2013-1-5 21:53
我本来用ComicsViewer 1.28,所存的文本为Gbk文本,一直用得很好。最近看到ComicsViewer2.06版出来了,改 ...

有时新版不一定能满足需要
您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

站长推荐上一条 /2 下一条

小黑屋|手机版|Archiver|国学数典 ( 2006-2020 冀ICP备19008975号-2 )在线客服

GMT+8, 2021-8-1 21:51

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表