Python——txt转化表格

该Python脚本实现了从TXT文件读取数据,并将其转换为XLS工作簿的功能。它逐行读取TXT文件,按制表符分隔数据,并将内容写入到Excel表格的不同单元格中。此脚本适用于处理简单的数据转换任务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Python——txt转化表格

import xlwt
import os
import sys
def txt_xls(filename, xlsname):
    try:
        f = open(filename)
        xls = xlwt.Workbook()
        sheet = xls.add_sheet('sheet', cell_overwrite_ok=True)
#        sheet = xls.add_sheet('sheet')
        x = 0  
        while True:  
            line = f.readline()  
            if not line:  
                break
            for i in range(len(line.split('\t'))): 
                item = line.split('\t')[i]
                sheet.write(x, i, item)  
            x += 1 
        f.close()
        xls.save(xlsname) 
    except:
        erverConfigList
if __name__ == '__main__':
    filename = '/opt/xuyang/shujuchuli/infodir/LoginServerInfo.txt'
    xlsname = '/opt/xuyang/shujuchuli/infodir/LoginServerInfo.xls'
    txt_xls(filename,xlsname)
### 使用 Python 将 PDF 文件转换为表格 #### 方法一:使用 `tabula-py` 库 `tabula-py` 是一个用于从 PDF 中提取表格数据的强大工具,它可以将 PDF 表格直接转换为 Pandas 的 DataFrame。以下是具体实现方式: 安装依赖项: ```bash pip install tabula-py ``` 代码示例: ```python from tabula import read_pdf # 读取 PDF 并将其转换为 DataFrame df = read_pdf("example.pdf", pages="all") # 打印结果 print(df) ``` 上述代码会自动检测 PDF 中的表格并将它们加载到 Pandas 数据框中[^1]。 如果需要保存为 CSV 文件,则可以通过以下方式进行扩展: ```python import pandas as pd # 转换并保存为 CSV df.to_csv("output.csv", index=False, encoding='utf-8') ``` --- #### 方法二:结合 OpenRefine 和 Tabula-Py 预处理复杂 PDF 对于某些复杂的 PDF 文档,可能需要先通过外部工具(如 OpenRefine)进行预处理后再导入至 Python 环境中进一步分析。此过程通常涉及手动调整页面布局或分割多页文档。 --- #### 方法三:利用 PyPDF2 提取纯文本再加工成表格式 尽管 PyPDF2 主要设计用来解析非结构化 PDF 内容而非专门针对表格识别,但在特定场景下仍可作为备选方案之一。其基本工作流程如下所示: 安装所需模块: ```bash pip install pypdf2 ``` 脚本实例: ```python from PyPDF2 import PdfReader def extract_text_from_pdf(pdf_path): reader = PdfReader(pdf_path) text = "" for page in reader.pages: text += page.extract_text() or "" # 如果某一页无文字则跳过 return text.strip() pdf_content = extract_text_from_pdf('input_file.pdf') # 假设我们已知每行代表一条记录且字段间由固定分隔符区分 lines = pdf_content.split('\n') cleaned_data = [line.split(',') for line in lines] # 构建 DataFrame columns = ['Column1', 'Column2'] # 替换实际列名 final_df = pd.DataFrame(cleaned_data, columns=columns) print(final_df.head()) ``` 注意这种方法仅适用于那些内部逻辑清晰、易于拆解为目标单元格阵列形式的数据源[^3]。 --- #### 总结说明 以上介绍了三种不同途径来达成把 PDF 转换成电子表格的目的——推荐优先考虑采用 **Tabula-Py** 因为其专攻于此领域并且支持良好地与 Pandas 整合;而当面对更棘手的情况时也可以尝试其他辅助手段比如借助第三方应用程序完成初步清理之后再接入编程接口继续深入挖掘价值所在。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值