正文文本提取和表格文本提取 #112

kendrickliu · 2024-09-04T06:26:25Z

你好，在试用pdf解析时，有问题想请教一下：
1.从category_id的类别上看，"category_id":1是plain_text正文自然段文本，"category_id":5中的latex是表格文本，但是我看到解析结果的json文件，发现"category_id":1没有text文本，只有"category_id":15的ocr_text的text文本，ocr_text是否可以理解为除去表格内容等的纯正文文本呢？
2.解析后的json文件ocr_text文本的上下文顺序与原文有些不同（不是多列），是否存在坐标排序？
感谢

wufan-tb · 2024-09-19T07:05:15Z

你的理解是正确的，id 1 是layout检测的段落框，但是没有段落的文本内容，id 15是ocr检测的文本框，但是检测的时候图片，表格，和公式都是mask掉的，所以不包含表格内容；
json中应该是乱序的，因为本身就是多个检测器，也没有进行坐标排序；

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

正文文本提取和表格文本提取 #112

正文文本提取和表格文本提取 #112

kendrickliu commented Sep 4, 2024 •

edited

Loading

wufan-tb commented Sep 19, 2024 •

edited

Loading

正文文本提取和表格文本提取 #112

正文文本提取和表格文本提取 #112

Comments

kendrickliu commented Sep 4, 2024 • edited Loading

wufan-tb commented Sep 19, 2024 • edited Loading

kendrickliu commented Sep 4, 2024 •

edited

Loading

wufan-tb commented Sep 19, 2024 •

edited

Loading