- 博客(5)
- 收藏
- 关注
原创 MinerU直播问题记录
看这个PDF-Extract-Kit 1.0 其中model-json是个块是什么类型内容。middle-json是这个块是什么内容。解答:是根据特征进行的,比如页码等,,会进行换行等。比如论文作者,在上面居中,这也是特征。标题比较大比较出居中这些,也是特征,视觉判断。4、我这边想按章节和小标题切分内容,但是直接生成的md对标题以及层级的解析不是很好,有什么好的方法吗?解答:根据line的高度进行聚类。解答:有middle-json,里面有坐标,内容等。2、目录是如何检测识别的,标题是怎么检测的。
2024-11-20 20:34:14
208
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人