【大模型微调】pdf转markdown

andeyeluguo

已于 2024-12-03 21:40:17 修改

阅读量509

点赞数

CC 4.0 BY-SA版权

分类专栏： AI笔记文章标签： pdf

于 2024-12-03 21:39:55 首次发布

本文链接：https://blog.youkuaiyun.com/andeyeluguo/article/details/144224605

AI笔记专栏收录该内容

125 篇文章 ¥59.90 ¥99.00

订阅专栏

目前市面上大部分都是pdf文档，要想转换成能训练的文本，调研了各种工具。

觉得MinerU确实不错。

参考此链接进行操作

MinerU/docs/README_Ubuntu_CUDA_Acceleration_en_US.md at master · opendatalab/MinerU · GitHub

需要注意的几个点：

1. 使用root账户安装的，配置文件在此处 /root/magic-pdf.json

2. 配置文件cuda，使能表格的配置文件参考为

{
    "bucket_info": {
        "bucket-name-1": [
            "ak",
            "sk",
            "endpoint"
        ],
        "bucket-name-2": [
            "ak",
            "sk",
            "endpoint"
        ]
    },
    "models-dir": "/root/.cache/modelscope/hub/open

了解本专栏