动手学深度学习73 课程总结和进阶学习

1. 课程总结和进阶学习

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
https://c.d2l.ai/stanford-cs329p/
在这里插入图片描述

https://paperswithcode.com
https://www.bilibili.com/video/BV1nA41157y4/?vd_source=eb04c9a33e87ceba9c9a2e5f09752ef8

怎么建立知识库
在这里插入图片描述
在这里插入图片描述

2. QA

在这里插入图片描述
20 算法提取的特征和人的不一样,互补
21 很难预测未来
22 可以不同步进行
23 打印device
24 都一样
25 不要有娱乐时间
26 不评价
在这里插入图片描述
27 不一定
28 tabula data
在这里插入图片描述

tabula data from GPT-4o

Tabula 是一个用于从 PDF 文件中提取表格数据的开源工具。其主要功能是将 PDF 中的表格数据提取成结构化格式(如 CSV、Excel、JSON 或 Pandas DataFrames),以便进行后续分析和处理。Tabula data 指的就是由 Tabula 工具从 PDF 文件中提取出来的数据,通常是以结构化的形式呈现的表格数据。


Tabula 的核心功能

Tabula 的设计理念是将 PDF 中的表格数据转化为可以直接读取和分析的数据格式。PDF 文件通常为固定的布局,不易直接解析,而 Tabula 通过检测表格的行列分隔,准确提取表格的内容。Tabula 的核心功能包括:

  1. 表格检测:Tabula 可以自动检测 PDF 中的表格结构,分离行列信息。
  2. 数据提取:通过列、行分隔,将表格内容解析成结构化数据。
  3. 导出格式:支持将数据保存为 CSV、Excel 等文件格式。
  4. 区域选择:可以手动选择 PDF 的某一区域,以便精确提取特定部分的数据。

Tabula 的技术原理

Tabula 使用光学字符识别(OCR)和 PDF 布局解析技术,以准确提取 PDF 中的表格内容。其原理包括:

  1. 文本区域检测:分析 PDF 文件中文本区域的位置,识别出可能包含表格的区域。
  2. 行列分隔分析:根据 PDF 中的分隔线或空白区域,将文本块划分成行和列。
  3. 字符识别与拼接:对 PDF 的字符内容进行识别,将各行各列中的内容拼接成完整的数据行。
  4. 导出数据:将解析出的表格数据以结构化格式输出。

Tabula 的优缺点

优点

  • 自动化程度高:自动检测表格行列,大部分情况下不需要手动调整。
  • 开源免费:作为开源工具,用户可以自由使用和二次开发。
  • 导出格式多样:支持 CSV、Excel、JSON 等多种格式的导出。

缺点

  • 复杂表格解析有限:Tabula 对于一些包含合并单元格或非标准格式的复杂表格解析较为困难。
  • 对图像内容有限:Tabula 主要基于文本识别,若 PDF 表格为扫描件图像,可能无法准确提取。
  • 手动调整需求:在一些格式不规整的表格中,可能需要手动选择表格区域。

Tabula 的典型应用场景

  1. 财务报表分析:快速提取财务报表中的表格内容,方便数据分析。
  2. 统计报告数据提取:将统计年报或政府报告中的数据提取成表格,便于处理。
  3. 自动化数据采集:将定期生成的 PDF 数据文件(如报告、清单)自动解析成 CSV,用于数据系统。
  4. 数据挖掘与整理:将大量 PDF 文件中的表格数据批量整理成结构化数据。

使用 Tabula 的方法

  1. 安装

    • Tabula 提供了桌面版和 Python 库。桌面版可以在 Tabula 网站下载;Python 库则可通过 pip install tabula-py 安装。
  2. 使用步骤

    • 桌面版:将 PDF 文件导入 Tabula,选择表格区域后导出所需格式。
    • Python 代码:导入 tabula-py 库,使用 read_pdf() 函数提取表格数据并转化为 Pandas DataFrame。
  3. 示例代码

    import tabula
    
    # 从 PDF 文件中提取数据
    df = tabula.read_pdf("file.pdf", pages="all", lattice=True)
    
    # 输出为 CSV 文件
    tabula.convert_into("file.pdf", "output.csv", output_format="csv", pages="all")
    

    其中,lattice=True 参数用于处理带有网格线的表格,提高提取准确性。


总结

Tabula data 即是通过 Tabula 工具从 PDF 中提取出来的结构化表格数据。Tabula 通过自动检测 PDF 中的表格结构,将内容转化为可直接分析的格式,适合在财务、统计等需要从 PDF 文件中提取数据的场景下使用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值