python表格对齐_浅谈python str.format与制表符\t关于中文对齐的细节问题

本文探讨了Python爬虫在处理中文输出时的对齐问题,通过使用str.format结合中文字符计数技巧实现美观的输出格式,并介绍了使用制表符进行微调的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

写了一个练手的爬虫...在输出的时候出现了让人很不愉♂悦的问题

像这样:

20190114094139.jpg

令人十分难受啊!

#------------------------------------------

在此之前先说一下python中的.format格式化输出

20190114094150.jpg

python2.6开始,可以使用str.format进行轻松的格式化,

如上可以看到,对变量的处理简洁灵活,此外对数字的各种位数处理也很到位

{:为右对齐,^为居中),少于x位自动补齐(默认为空格补齐)

这里值得注意的是,x也可以作为变量代入:

20190114094159.jpg

#------------------------------------------

着手解决问题,

第一反应使用\t制表符,带来的问题便是字符串长度差距超过一个制表位时,会跳到下一个制表位,如图:

20190114094208.jpg

不能接受,使用str.format补齐name属性的长度为25

结果却是这样的:

20190114094217.jpg

py虽好,有些细节还是没有照顾到中文

这里补齐长度时中文字符也按1字节计算了,

然而我们知道,utf-8中中文占用3个字节,GBK中占用了2个字节,只算作1字节显然不能对齐

这时求助于prettytable包输出表格,然而输出也不理想,可以想象也没有考虑中文编码的问题(或是需要设置编码为utf-8或gbk?)

分析一下理想的name所占的长度,应为固定的x字节(这里按目前的爬取结果暂时取22)

那么他的补齐长度应为

len = 22 - gbk编码下name的字节数 + name的字符数

幸运的是str.format支持使用变量代替补齐长度的值

尝试以下代码:

print('[{name:<{len}}x'.format(name=name+']',len=22-len(name.encode('GBK'))+len(name)))

结果十分接近理想了:

20190114094230.jpg

还是有一些迷之问题导致1-0.5字节长度的偏差,猜测是由于中文字体不是等宽字体的缘故?

然而不用多虑,这里就可以使用一记粗暴的制表符\t解决问题了

print('[{name:<{len}}\tx'.format(name=name+']',len=22-len(name.encode('GBK'))+len(name)))

20190114094238.jpg

大功告成!锵锵!

#------------------------------------------

后话

这次写的主要是一个爬取几个主要交易网站以及steam上dota2饰品价格的爬虫,里面遇到的问题其实也挺多的比如登录动态加载等等

等写的比较完善了大概也会一起发上来啦~

以上这篇浅谈python str.format与制表符\t关于中文对齐的细节问题就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

请将修改整合到以下代码中: import os import re import traceback from docx import Document from docx.enum.text import WD_ALIGN_PARAGRAPH, WD_LINE_SPACING from docx.shared import Pt, Cm, RGBColor from docx.oxml.ns import qn from docx.oxml import parse_xml from docx.oxml.shared import OxmlElement def process_word_document(input_path, skip_pages): try: # 检查文件格式 if not input_path.lower().endswith(('.docx', '.doc')): raise ValueError("只支持 .docx 或 .doc 格式的文件") # 处理 .doc 文件(需要转换为 .docx) if input_path.lower().endswith('.doc'): # 实际应用中需要安装 win32com 并转换文件 # 这里简化为直接报错 raise NotImplementedError("请先将 .doc 文件转换为 .docx 格式") doc = Document(input_path) # 跳过前x页 if skip_pages > 0: page_break_count = 0 delete_index = 0 # 遍历段落查找分页符 for i, para in enumerate(doc.paragraphs): if page_break_count >= skip_pages: break # 检查分页符(w:lastRenderedPageBreak 或 w:br type="page") if para._element.xpath('.//w:lastRenderedPageBreak') or \ para._element.xpath('.//w:br[@w:type="page"]'): page_break_count += 1 delete_index = i + 1 # 删除封面和目录页的段落 for i in range(delete_index): if len(doc.paragraphs) > 0: p = doc.paragraphs[0] p_element = p._element p_element.getparent().remove(p_element) # 设置全局样式 for para in doc.paragraphs: # 跳过空段落 if not para.text.strip(): continue # 设置基本段落格式 set_paragraph_format(para) # 检查并设置标题样式 text = para.text.strip() if re.match(r'^[一二三四五六七八九十]+、', text): set_heading_style(para, level=1) elif re.match(r'^\d+\.\d+', text): set_heading_style(para, level=2) elif re.match(r'^$\d+$', text): set_heading_style(para, level=3) # 处理图片和表格 process_images(doc) process_tables(doc) # 保存处理后的文件 output_dir = os.path.dirname(input_path) filename = os.path.basename(input_path) name, ext = os.path.splitext(filename) output_path = os.path.join(output_dir, f"{name}_已处理.docx") doc.save(output_path) return f"文件处理成功,保存为: {output_path}" except Exception as e: # 获取出错时的上下文信息 error_context = "未知位置" if 'para' in locals(): error_context = f"段落内容: {para.text[:50] + '...' if para.text else '空段落'}" elif 'table' in locals(): error_context = f"表格位置: 第{len(doc.tables)}个表格" return f"处理出错: {str(e)}\n出错位置: {error_context}\n详细错误:\n{traceback.format_exc()}" def set_paragraph_format(para): """设置段落基本格式:仿宋三号,行间距28.95磅,首行缩进2字符,两端对齐""" # 设置字体 for run in para.runs: run.font.name = '仿宋' run.font.size = Pt(16) # 三号≈16磅 run._element.rPr.rFonts.set(qn('w:eastAsia'), '仿宋') # 设置段落格式 p_format = para.paragraph_format p_format.line_spacing_rule = WD_LINE_SPACING.EXACTLY p_format.line_spacing = Pt(28.95) p_format.alignment = WD_ALIGN_PARAGRAPH.JUSTIFY # 设置首行缩进(2字符≈0.74cm) p_format.first_line_indent = Cm(0.74) # 清除原有制表位 p_prop = para._element.get_or_add_pPr() tabs = p_prop.find(qn('w:tabs')) if tabs is not None: p_prop.remove(tabs) # 添加新的制表位(用于首行缩进) tab_stop = OxmlElement('w:tab') tab_stop.set(qn('w:val'), 'left') tab_stop.set(qn('w:pos'), str(int(Cm(0.74).emu))) tabs = OxmlElement('w:tabs') tabs.append(tab_stop) p_prop.append(tabs) def set_heading_style(para, level): """设置标题样式""" # 清除首行缩进 para.paragraph_format.first_line_indent = Cm(0) # 根据级别设置样式 if level == 1: # 一级标题:黑体三号 font_name = '黑体' for run in para.runs: run.font.name = font_name run.font.size = Pt(16) run._element.rPr.rFonts.set(qn('w:eastAsia'), font_name) para.paragraph_format.alignment = WD_ALIGN_PARAGRAPH.CENTER elif level == 2: # 二级标题:楷体三号 font_name = '楷体' for run in para.runs: run.font.name = font_name run.font.size = Pt(16) run._element.rPr.rFonts.set(qn('w:eastAsia'), font_name) para.paragraph_format.alignment = WD_ALIGN_PARAGRAPH.LEFT elif level == 3: # 三级标题:仿宋三号 # 已在基础设置中 para.paragraph_format.alignment = WD_ALIGN_PARAGRAPH.LEFT def process_images(doc): """处理图片及其图注""" for i, para in enumerate(doc.paragraphs): # 检查是否包含图片 if any(run._element.xpath('.//pic:pic') for run in para.runs): # 检查是否为独立图片(整段只有图片) if not para.text.strip() and len(para.runs) == 1: # 独立图片:单倍行距、居中对齐 para.paragraph_format.line_spacing = Pt(12) # 单倍行距 para.alignment = WD_ALIGN_PARAGRAPH.CENTER # 检查下一段是否为图注 if i + 1 < len(doc.paragraphs): next_para = doc.paragraphs[i + 1] if next_para.text.strip().startswith('图'): set_figure_caption_style(next_para) else: # 内嵌图片:单倍行距、两端对齐 para.paragraph_format.line_spacing = Pt(12) # 单倍行距 para.paragraph_format.alignment = WD_ALIGN_PARAGRAPH.JUSTIFY def set_figure_caption_style(para): """设置图注样式:楷体四号,行间距28.95磅,居中对齐""" # 设置字体 for run in para.runs: run.font.name = '楷体' run.font.size = Pt(14) # 四号≈14磅 run._element.rPr.rFonts.set(qn('w:eastAsia'), '楷体') # 设置段落格式 para.paragraph_format.line_spacing = Pt(28.95) para.paragraph_format.alignment = WD_ALIGN_PARAGRAPH.CENTER para.paragraph_format.first_line_indent = Cm(0) def process_tables(doc): """处理表格及其表注(修复版)""" for table in doc.tables: # 表格整体居中 table.alignment = WD_ALIGN_PARAGRAPH.CENTER # 设置表头样式(第一行) if len(table.rows) > 0: header_cells = table.rows[0].cells for cell in header_cells: for para in cell.paragraphs: for run in para.runs: run.font.name = '黑体' run.font.size = Pt(14) run._element.rPr.rFonts.set(qn('w:eastAsia'), '黑体') para.paragraph_format.line_spacing = Pt(28.95) para.paragraph_format.alignment = WD_ALIGN_PARAGRAPH.CENTER # 设置表格内容样式(其他行) for row in table.rows[1:]: for cell in row.cells: for para in cell.paragraphs: for run in para.runs: run.font.name = '仿宋' run.font.size = Pt(14) run._element.rPr.rFonts.set(qn('w:eastAsia'), '仿宋') para.paragraph_format.line_spacing = Pt(28.95) para.paragraph_format.alignment = WD_ALIGN_PARAGRAPH.CENTER # 修复:正确处理表注 table_element = table._element prev_element = table_element.getprevious() # 检查前一个元素是否是段落 if prev_element is not None and prev_element.tag.endswith('p'): # 在文档段落中查找匹配的元素 for para in doc.paragraphs: if para._element is prev_element: if para.text.strip().startswith('表'): set_table_caption_style(para) break def set_table_caption_style(para): """设置表注样式:楷体四号,行间距28.95磅,居中对齐""" # 设置字体 for run in para.runs: run.font.name = '楷体' run.font.size = Pt(14) # 四号≈14磅 run._element.rPr.rFonts.set(qn('w:eastAsia'), '楷体') # 设置段落格式 para.paragraph_format.line_spacing = Pt(28.95) para.paragraph_format.alignment = WD_ALIGN_PARAGRAPH.CENTER para.paragraph_format.first_line_indent = Cm(0) # 主程序入口 if __name__ == "__main__": print("Word文档格式处理工具") print("=" * 50) input_path = input("请输入Word文档路径: ").strip() skip_pages = int(input("请输入要跳过的页数: ")) result = process_word_document(input_path, skip_pages) print("\n处理结果:") print("-" * 50) print(result) print("=" * 50)
07-03
import os import re import traceback from docx import Document from docx.enum.text import WD_ALIGN_PARAGRAPH, WD_LINE_SPACING from docx.shared import Pt, Cm, RGBColor from docx.oxml.ns import qn from docx.oxml import parse_xml from docx.oxml.shared import OxmlElement def process_word_document(input_path, skip_pages): try: # 检查文件格式 if not input_path.lower().endswith((‘.docx’, ‘.doc’)): raise ValueError(“只支持 .docx 或 .doc 格式的文件”) # 处理 .doc 文件(需要转换为 .docx) if input_path.lower().endswith('.doc'): # 实际应用中需要安装 win32com 并转换文件 # 这里简化为直接报错 raise NotImplementedError("请先将 .doc 文件转换为 .docx 格式") doc = Document(input_path) # 跳过前x页 if skip_pages > 0: page_break_count = 0 delete_index = 0 # 遍历段落查找分页符 for i, para in enumerate(doc.paragraphs): if page_break_count >= skip_pages: break # 检查分页符(w:lastRenderedPageBreak 或 w:br type="page") if para._element.xpath('.//w:lastRenderedPageBreak') or \ para._element.xpath('.//w:br[@w:type="page"]'): page_break_count += 1 delete_index = i + 1 # 删除封面和目录页的段落 for i in range(delete_index): if len(doc.paragraphs) > 0: p = doc.paragraphs[0] p_element = p._element p_element.getparent().remove(p_element) # 设置全局样式 for para in doc.paragraphs: # 跳过空段落 if not para.text.strip(): continue # 如果是图片或图注段落,跳过基本格式设置(后面单独处理) if is_image_paragraph(para) or is_image_caption(para): continue # 设置基本段落格式 set_paragraph_format(para) # 检查并设置标题样式 text = para.text.strip() if re.match(r'^[一二三四五六七八九十]+、', text): set_heading_style(para, level=1) elif re.match(r'^\d+\.\d+', text): set_heading_style(para, level=2) elif re.match(r'^$\d+$', text): set_heading_style(para, level=3) # 处理图片和表格 process_images(doc) process_tables(doc) # 保存处理后的文件 output_dir = os.path.dirname(input_path) filename = os.path.basename(input_path) name, ext = os.path.splitext(filename) output_path = os.path.join(output_dir, f"{name}_已处理.docx") doc.save(output_path) return f"文件处理成功,保存为: {output_path}" except Exception as e: # 获取出错时的上下文信息 error_context = "未知位置" if 'para' in locals(): error_context = f"段落内容: {para.text[:50] + '...' if para.text else '空段落'}" elif 'table' in locals(): error_context = f"表格位置: 第{len(doc.tables)}个表格" return f"处理出错: {str(e)}\n出错位置: {error_context}\n详细错误:\n{traceback.format_exc()}" def set_paragraph_format(para): “”“设置段落基本格式:仿宋三号,行间距28.95磅,首行缩进2字符,两端对齐”“” # 设置字体 for run in para.runs: run.font.name = ‘仿宋’ run.font.size = Pt(16) # 三号≈16磅 run._element.rPr.rFonts.set(qn(‘w:eastAsia’), ‘仿宋’) # 设置段落格式 p_format = para.paragraph_format p_format.line_spacing_rule = WD_LINE_SPACING.EXACTLY p_format.line_spacing = Pt(28.95) p_format.alignment = WD_ALIGN_PARAGRAPH.JUSTIFY # 设置首行缩进(2字符≈0.74cm) p_format.first_line_indent = Cm(0.74) # 清除原有制表位 p_prop = para._element.get_or_add_pPr() tabs = p_prop.find(qn('w:tabs')) if tabs is not None: p_prop.remove(tabs) # 添加新的制表位(用于首行缩进) tab_stop = OxmlElement('w:tab') tab_stop.set(qn('w:val'), 'left') tab_stop.set(qn('w:pos'), str(int(Cm(0.74).emu))) tabs = OxmlElement('w:tabs') tabs.append(tab_stop) p_prop.append(tabs) def set_heading_style(para, level): “”“设置标题样式”“” # 清除首行缩进 para.paragraph_format.first_line_indent = Cm(0) # 根据级别设置样式 if level == 1: # 一级标题:黑体三号 font_name = '黑体' for run in para.runs: run.font.name = font_name run.font.size = Pt(16) run._element.rPr.rFonts.set(qn('w:eastAsia'), font_name) # 修改:一级标题不需要居中,改为左对齐 para.paragraph_format.alignment = WD_ALIGN_PARAGRAPH.LEFT elif level == 2: # 二级标题:楷体三号 font_name = '楷体' for run in para.runs: run.font.name = font_name run.font.size = Pt(16) run._element.rPr.rFonts.set(qn('w:eastAsia'), font_name) para.paragraph_format.alignment = WD_ALIGN_PARAGRAPH.LEFT elif level == 3: # 三级标题:仿宋三号 # 已在基础设置中 para.paragraph_format.alignment = WD_ALIGN_PARAGRAPH.LEFT def is_image_paragraph(para): “”“检查段落是否包含图片”“” for run in para.runs: if run._element.xpath(‘.//pic:pic’) or run._element.xpath(‘.//w:drawing’): return True return False def is_image_caption(para): “”“检查段落是否是图片图注”“” text = para.text.strip() return text.startswith((‘图’, ‘Figure’, ‘Fig’)) def process_images(doc): “”“处理图片及其图注(修复行距和段后间距问题)”“” for i, para in enumerate(doc.paragraphs): # 检查是否包含图片 if is_image_paragraph(para): # 设置图片段落的正确格式 set_image_paragraph_style(para) # 检查下一段是否为图注 if i + 1 < len(doc.paragraphs): next_para = doc.paragraphs[i + 1] if is_image_caption(next_para): set_figure_caption_style(next_para) # 单独检查图注段落(可能不是紧跟在图片后面) elif is_image_caption(para): set_figure_caption_style(para) def set_image_paragraph_style(para): “”“设置图片段落的正确格式:单倍行距,段后0磅”“” # 单倍行距 para.paragraph_format.line_spacing_rule = WD_LINE_SPACING.SINGLE # 段后间距0磅 para.paragraph_format.space_after = Pt(0) # 清除首行缩进 para.paragraph_format.first_line_indent = Cm(0) # 居中(独立图片) para.paragraph_format.alignment = WD_ALIGN_PARAGRAPH.CENTER def set_figure_caption_style(para): “”“设置图注段落的正确格式:楷体四号,单倍行距,段后0磅”“” # 设置字体 for run in para.runs: run.font.name = ‘楷体’ run.font.size = Pt(14) # 四号≈14磅 run._element.rPr.rFonts.set(qn(‘w:eastAsia’), ‘楷体’) # 设置段落格式 para.paragraph_format.line_spacing_rule = WD_LINE_SPACING.SINGLE para.paragraph_format.space_after = Pt(0) para.paragraph_format.alignment = WD_ALIGN_PARAGRAPH.CENTER para.paragraph_format.first_line_indent = Cm(0) def process_tables(doc): “”“处理表格及其表注(修复版)”“” for table in doc.tables: # 表格整体居中 table.alignment = WD_ALIGN_PARAGRAPH.CENTER # 设置表头样式(第一行) if len(table.rows) > 0: header_cells = table.rows[0].cells for cell in header_cells: for para in cell.paragraphs: for run in para.runs: run.font.name = '黑体' run.font.size = Pt(14) run._element.rPr.rFonts.set(qn('w:eastAsia'), '黑体') para.paragraph_format.line_spacing = Pt(28.95) para.paragraph_format.alignment = WD_ALIGN_PARAGRAPH.CENTER # 设置表格内容样式(其他行) for row in table.rows[1:]: for cell in row.cells: for para in cell.paragraphs: for run in para.runs: run.font.name = '仿宋' run.font.size = Pt(14) run._element.rPr.rFonts.set(qn('w:eastAsia'), '仿宋') para.paragraph_format.line_spacing = Pt(28.95) para.paragraph_format.alignment = WD_ALIGN_PARAGRAPH.CENTER # 修复:正确处理表注 table_element = table._element prev_element = table_element.getprevious() # 检查前一个元素是否是段落 if prev_element is not None and prev_element.tag.endswith('p'): # 在文档段落中查找匹配的元素 for para in doc.paragraphs: if para._element is prev_element: if para.text.strip().startswith('表'): set_table_caption_style(para) break def set_table_caption_style(para): “”“设置表注样式:楷体四号,行间距28.95磅,居中对齐”“” # 设置字体 for run in para.runs: run.font.name = ‘楷体’ run.font.size = Pt(14) # 四号≈14磅 run._element.rPr.rFonts.set(qn(‘w:eastAsia’), ‘楷体’) # 设置段落格式 para.paragraph_format.line_spacing = Pt(28.95) para.paragraph_format.alignment = WD_ALIGN_PARAGRAPH.CENTER para.paragraph_format.first_line_indent = Cm(0) 主程序入口 if name == “main”: print(“Word文档格式处理工具”) print(“=” * 50) input_path = input("请输入Word文档路径: ").strip() skip_pages = int(input("请输入要跳过的页数: ")) result = process_word_document(input_path, skip_pages) print("\n处理结果:") print("-" * 50) print(result) print("=" * 50) 修改代码,使一级、二级、三级标题的对齐方式为两端对齐,返回完整代码
最新发布
07-03
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值