pdf提取工具,文本、表格、图片提取

 

PDF 提取工具功能需求说明

一、核心功能

文本提取:支持从 PDF 文件中提取文本,无需 OCR 技术。提取时保留文本相对位置,便于后续内容定位;仅删除完全不含可见字符的空行,最大限度保留原文排版结构。

表格提取:实现 PDF 表格提取,自动处理内容换行,增强表格可读性;将单元格线框加黑,保持表格格式不变,确保与原 PDF 呈现效果一致。

图片提取:可将 PDF 内的图片完整提取,无需借助 OCR,满足用户获取文档图片素材的需求。

 

 

二、更新日志

20250515

pdf提取工具:

1、支持文本、表格、图片提取

2、非OCR

3、文本提取保留文本相对位置,方便定位内容,只删除完全不含可见字符的空行

4、表格已做内容自动换行、单元格线框加黑

20250518更新:

1、主要加了图片提取方式“源图识别”,上一个版本的提图方式保留为“区域裁剪”

“区域裁剪”是识别图片的坐标范围,进行暴力提取(类似截图),不区分图片层及其上层文本层,因此提取的图片可能带文本内容

“源图识别”是另外一个路线,区分图片层及其上层文本层,不带不属于源图本身的的文本内容,尽量保留源图的格式和细节

2、增加了“停止”功能,中断运行进程

3、其他细节优化

4、有点大......

参考原文:https://mp.weixin.qq.com/s/whyYwnD7jFFbIdic6h7K6g

轻轻一点就关注, 好运连连挡不住,点个关注吧。

版权声明:
作者:倾城
链接:https://www.techfm.club/p/217727.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>