国学数典

 找回密码
 注册

QQ登录

只需一步,快速开始

楼主: 汉文学士

[工具] PDF 补丁丁0.5.0.2520(测试版)解除PDF文档的烦恼

  [复制链接]
 楼主| 发表于 2011-2-18 14:06 | 显示全部楼层
楼上的文件里只有图片没有书签呀。
发表于 2011-2-18 18:03 | 显示全部楼层
楼上的文件里只有图片没有书签呀。
comme 发表于 2011-2-18 14:06



    谢谢LZ回复!
希望的是补丁丁0.3.1.2从这个PDF中提取并编辑书签。
可能太奢望了。
 楼主| 发表于 2011-2-18 19:27 | 显示全部楼层
哦,原来是这个意思。
自动生成书签的功能不是从目录页中抽取文本生成书签,而是通过分析正文字体的尺寸,将具有大尺寸的文本和位置提取出来,做成书签。对于字典类图片PDF,效果可能不会很理想。一来字典的词条多,生成的书签数量将很庞大;另一个更难解决的问题是光学字符识别组件识别只能识别常用字,很多非常用字的字头肯定会识别错。目前我只希望它能抽取普通书籍的标题出来而已。

评分

1

查看全部评分

发表于 2011-2-18 21:23 | 显示全部楼层
多次实验,finereader是最好的,pdf白金版的那个ocr引擎不怎么样。

评分

1

查看全部评分

 楼主| 发表于 2011-2-21 08:37 | 显示全部楼层
回comme大侠,finereader识别速度的确比较慢,但牺牲速度换来的就是极高的识别率(我指的是西文字符,尤 ...
angst 发表于 2011-2-8 01:12



昨天晚上优化了自动生成书签的排版识别功能,可以成功处理你传给我的 FineReader 识别后文本了。
今天再完善一下功能。
 楼主| 发表于 2011-2-22 10:46 | 显示全部楼层
请问comme大侠,abbyy finereader可以将图片pdf文件ocr成图文双层pdf,为何你言到文本无法写入原pdf?另我用过大侠制作的补丁丁前一个版本,但是在识别我用finereader 制成的英文图文双层的pdf文件(原文件质量良好)时,生成的书签错误太多,几乎不能用。请问新版本是否对英文的pdf图文双层的目录识别进行了优化呢?angst 发表于 2011-2-7 19:05



0.3.1.3 版略微优化了排版识别算法,可以识别这种双层文本的标题了。

新版本新增及修正功能如下:

0.3.1.3 2011年2月22日
新增功能:
        书签编辑器增加强制设置页面链接目标为内部链接(用于修复一些文件改名后链接失效的书签)。
        在书签编辑器按住 Ctrl 键拖动书签可复制书签。
        书签编辑器如直接编辑 PDF 的书签,保存时默认执行补丁生成新的 PDF 文件。

修改功能:
        书签编辑器优化撤销速度。
        自动识别标签功能优化文字排版的后处理过程。

修复错误:
        书签编辑器批量移动书签后反转顺序的问题。
        书签编辑器批量撤销会导致程序崩溃的问题。
        补丁功能导入外部页面链接错误的问题。
 楼主| 发表于 2011-2-22 16:46 | 显示全部楼层
本帖最后由 comme 于 2011-2-22 17:42 编辑

早上发布的版本有漏洞,导致无法解密 PDF 文件和使用合并模式添加图片等。

请下载新的修复版。

接下来将会为程序撰写使用文档和应用示例。发布稳定版本后,就着手开发结合光学字符识别的书签制作功能。
大家在测试过程中如发现问题请回帖。
发表于 2011-2-23 15:41 | 显示全部楼层
本帖最后由 shengdong 于 2011-2-23 15:46 编辑

comme兄,书签标页码时以正文第1页为1,加入之后这条书签指向封面,这个问题能解决吗?
其实也可以加上正文之前的页码数,但是有的书前言、目录长得不行,对照很费力。

————————————
另有这种格式的提不出图片(附件)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
 楼主| 发表于 2011-2-23 16:05 | 显示全部楼层
本帖最后由 comme 于 2011-2-23 16:10 编辑

回复 72# shengdong


是否可以具体介绍一下你对照页码标书签的过程吗?让我看看是哪个功能操作不便。


你上传的附件可以提取出图片呀。
前些天发布的版本有问题,请重新下载修复版再操作一次看看。
发表于 2011-2-23 18:32 | 显示全部楼层
回复 73# comme


    图片可以提取,是我操作错了。
书签的编辑步骤如图片所示(附件)
这本书的前言、目录有100多页,我起始页面直接定为正文的第1页了,因为这样可以对照原书目录页所标示的页码。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
 楼主| 发表于 2011-2-23 20:27 | 显示全部楼层
本帖最后由 comme 于 2011-2-24 08:29 编辑

的确是个巨型 PDF 哦。
是否方便将该书目录的图片,以及 XML 格式的书签信息文件,传过来给我调试一下?
发表于 2011-2-24 11:21 | 显示全部楼层
回复 75# comme


    前言目录图片及书签:
http://u.115.com/file/t6c27a60bc#
前言目录图片及书签.rar
 楼主| 发表于 2011-2-24 17:30 | 显示全部楼层
本帖最后由 comme 于 2011-2-24 17:43 编辑

回复 76# shengdong


看样子是需要将所有页码数正偏移161页(书签第1页实际上是162页)。

好的。我在下一版的编辑器中增加一个页码偏移量选项。
在实现这个功能之前,你可以用0.3.1.4版(见主帖附图),将所有页码增加161页转成实际页数。

评分

2

查看全部评分

发表于 2011-2-24 18:33 | 显示全部楼层
本帖最后由 gy0715 于 2011-2-24 18:37 编辑

回复 77# comme


    打开下面这个pdf文档显示的书签页码怎么都是0啊?
     http://u.115.com/file/f64f1100f7#
    铁道游击队v1.pdf

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
 楼主| 发表于 2011-2-24 19:40 | 显示全部楼层
回复 78# gy0715



这是由于那个文件的书签动作目标不符合 PDF 规范。PDF 规范要求:文件内的链接不能直接用数字指定目标页码,而应该用编号引用来指定页码的。

偶尔会遇到这样的文档,我改改程序迁就一下这种文档吧。

评分

1

查看全部评分

发表于 2011-2-25 09:04 | 显示全部楼层
感谢楼主的软件,昨天刚试用了一下,图像导出功能非常不错。
使用书签功能时出现了以下问题。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
 楼主| 发表于 2011-2-25 15:30 | 显示全部楼层
回复 78# gy0715回复 80# wangqun

问题已经解决,请下载最新的 0.3.1.7 版。
发表于 2011-2-25 15:47 | 显示全部楼层
回复 81# comme
谢谢comme,现在没问题了。
 楼主| 发表于 2011-2-25 22:51 | 显示全部楼层
回复 66# 客无能


    嗯,经过几天的开发和测试,期望用微软Office的清华引擎做成ABBYY识别结果基本上是不可能。今天再看你的帖子,看来还是先将目录识别提取出来,做一个基本的书签比较方便实际一些。我计划提供一个独立光学字符识别的功能,用于识别 PDF 页面的图片并转换为文字,这样就可能把目录的图片转换为书签目录了。
发表于 2011-2-25 23:06 | 显示全部楼层
回复 81# comme


    我的问题已解决,谢谢!
发表于 2011-2-27 12:34 | 显示全部楼层
请教comme——
想把“附件”中的两张大尺寸页面压缩到小页面的比例,用您的PDF 补丁丁0.3.1.13没有做到。
于此求助。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
 楼主| 发表于 2011-2-27 17:00 | 显示全部楼层
本帖最后由 comme 于 2011-2-27 17:05 编辑

回复 85# 客无能


   在 PDF 文档选项中选择如图所示的配置。然后用独立补丁模式处理文档。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

评分

1

查看全部评分

发表于 2011-2-27 17:50 | 显示全部楼层
回复  客无能


   在 PDF 文档选项中选择如图所示的配置。然后用独立补丁模式处理文档。 ...
comme 发表于 2011-2-27 17:00


感谢comme!
非常好,解决问题!
发表于 2011-3-2 08:36 | 显示全部楼层
这个软件对我太有用了,下载试试。
 楼主| 发表于 2011-3-2 11:27 | 显示全部楼层
0.3.1.15
新增功能:
    合并文件(制作图像 PDF)功能增加是否将黑白图片设为透明的选项。
修复错误:
    书签编辑器可能使书签目标位置偏离原来位置的问题。
    合并模式合并后可能使书签指向页码错误的问题。

评分

1

查看全部评分

发表于 2011-3-2 11:50 | 显示全部楼层
    嗯,经过几天的开发和测试,期望用微软Office的清华引擎做成ABBYY识别结果基本上是不 ...
comme 发表于 2011-2-25 22:51

热切盼望图片文字识别功能。
 楼主| 发表于 2011-3-8 15:32 | 显示全部楼层
本帖最后由 comme 于 2011-3-8 18:52 编辑

新版本0.3.1.17增强了书签编辑器,增加了一些实用功能。另外还修正了导出导入书签的若干问题。


如果你会 XPath,选择书签又多了一种途径。这个选择器的好处是:不但可以根据文本条件,而且可以根据“页码”、“样式”以外的其它属性,以及其它相关联的书签来选择书签。


选择和上一个书签指向相同页码的书签,XPath 表达式:
“preceding-sibling::*[1]/@页码 = ./@页码”
选择文本和上级书签一样的书签:
“parent::*/@文本=./@文本”


新版本增强的自动生成书签功能,可以更好地发现并处理文本 PDF 的标题,结合书签编辑器,可以轻松的制作 PDF 书签。

评分

1

查看全部评分

发表于 2011-3-10 10:00 | 显示全部楼层
二楼要繁体版做甚?

光学字符识别……这功能是可以考虑的。之前没有找到很好的 PDF 识别软件(ABBYY太大, ...
comme 发表于 2011-1-29 11:49



很期待大侠能够开发一个软件,将OCR功能作为插件,嵌入常见的PDF阅览器中。极其实用,而且目前没有同类。
补丁丁软件非常好,但是好多功能别的软件能够实现。
 楼主| 发表于 2011-3-10 10:23 | 显示全部楼层
本帖最后由 comme 于 2011-3-10 16:12 编辑

回复 92# tobeing



   老马新版本的独角兽浏览器(0.12以后版本)也有光学字符识别的功能。我现在也在考虑将光学字符识别功能做到一个简单的阅读器中,主要用途是用来制作书签。

评分

1

查看全部评分

 楼主| 发表于 2011-3-10 11:27 | 显示全部楼层
0.3.1.19 版更正了少量错误,并增加了标记书签方便编辑的功能。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

站长推荐上一条 /2 下一条

小黑屋|手机版|Archiver|国学数典 ( 2006-2020 冀ICP备19008975号-2 )在线客服

GMT+8, 2021-5-12 11:04

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表