gmft官网
gmft是一个用于将PDF中的表格转换为多种格式的工具包。它轻量级、模块化且性能优越。gmft依赖于微软的Table Transformers,这是众多替代方案中性能最好、最可靠的。gmft无需GPU即可运行,具有高吞吐量,并且安装简便,仅需一行代码即可完成安装。它使用PyPDFium2,因其高吞吐量和宽松的许可证而受到青睐。gmft使用的训练模型TATR在多样化的数据集PubTables-1M上训练,具有高可靠性。
gmft是什么?
gmft是一款轻量级、高性能的PDF表格提取工具,它能够将PDF文档中的表格数据快速、高效地转换为多种格式,例如Pandas DataFrame。gmft基于微软的Table Transformers模型,无需GPU即可运行,并具有高吞吐量,即使处理大量PDF文件也能保持高效。它使用PyPDFium2库进行PDF处理,确保了其速度和兼容性。
gmft的主要功能
gmft的主要功能是将PDF表格转换为其他格式,并提供丰富的附加功能,例如:
- 支持多种输出格式,包括Pandas DataFrame等。
- 能够输出表格的文本内容和位置信息。
- 可以输出表格的裁剪图像。
- 支持表格标题的提取。
- 无需OCR,即可处理图像和扫描PDF。
- 高吞吐量,快速处理大量PDF文件。
- 可配置性强,支持自定义模型和提取方法。
如何使用gmft
gmft的使用非常简单,主要步骤如下:
- 安装: 使用命令
pip install gmft安装gmft。 - 导入模块: 在Python脚本中导入必要的模块,例如
CroppedTable,TableDetector,AutoTableFormatter等。 - 创建文档对象: 使用
PyPDFium2Document创建PDF文档对象。 - 表格检测: 使用
TableDetector遍历文档页面,检测表格。 - 表格格式化: 使用
AutoTableFormatter格式化检测到的表格。 - 数据转换: 将提取的表格数据转换为所需格式,例如Pandas DataFrame。
- 关闭文档: 使用
close()方法关闭文档对象释放资源。
gmft产品价格
gmft是一个开源工具,完全免费使用。
gmft常见问题
gmft支持哪些类型的PDF文件? gmft支持各种类型的PDF文件,包括图像型PDF和扫描PDF,无需OCR即可进行表格提取。
gmft的性能如何? gmft基于高效的Table Transformers模型和PyPDFium2库,具有高吞吐量和优越的性能,能够快速处理大量PDF文件。
gmft的输出格式有哪些? gmft支持多种输出格式,最常用的就是Pandas DataFrame,方便用户进行后续的数据分析。当然,它也支持输出表格的文本和位置信息以及裁剪图像。
gmft官网入口网址
https://github.com/conjuncts/gmft
OpenI小编发现gmft网站非常受用户欢迎,请访问gmft网址入口试用。
数据统计
相关导航
定制、调整和下载免费矢量图标。 Ikonate 是一组适应性强、易于访问的优化 SVG 图标,可以在 Sketch 和 Photoshop 等开发和设计应用程序中轻松使用。可以用作图像、内联 SVG 或 SVG 精灵。Customise, adjust and download free vector icons. Ikonate is an adaptable set of optimised, accessible SVG icons that use can easily use in both development and design apps such as Sketch and Photoshop. Ready to use as images, inline SVGs or SVG sprites.

