Email Message
From: sender@example.com To: recipient@example.com Subject: 项目进度报告
Content
尊敬的团队成员:
现将本周项目进度报告发送给大家,请查阅附件中的详细数据...
Attachments
- 项目时间表.xlsx
- 预算规划.pdf
## 高级功能:附件类型自动识别
markitdown不仅能转换邮件本身,还能智能识别附件类型并应用相应的转换器。系统会自动调用不同的转换模块处理各种附件:
| 附件类型 | 处理模块 | 转换效果 |
|---------|---------|---------|
| .docx | [_docx_converter.py](https://link.gitcode.com/i/98eec3aab7a02e59e0d8a32f6dc98c44) | 保留格式的文本转换 |
| .pdf | [_pdf_converter.py](https://link.gitcode.com/i/268f67daba806148283d724762438b03) | 高精度文本提取 |
| .xlsx | [_xlsx_converter.py](https://link.gitcode.com/i/6574d19ff1c3a7e2f6cef1f6f12a4f81) | 表格转为Markdown表格 |
| .pptx | [_pptx_converter.py](https://link.gitcode.com/i/f9978eb7d8cadc49426ca5549a3d0147) | 幻灯片内容提取 |
| 图片文件 | [_image_converter.py](https://link.gitcode.com/i/d9399d4e1a56f128f4e0c9a2d8cfbdf8) | 生成图片链接与描述 |
## 常见问题与解决方案
### 问题1:中文乱码问题
如果转换后的邮件出现中文乱码,通常是字符编码识别问题。可以通过指定编码参数解决:
```bash
markitdown convert -i email.msg -o output.md --encoding utf-16
问题2:复杂表格转换失真
对于包含复杂表格的邮件内容,建议使用高级表格转换选项:
markitdown convert -i report.msg -o report.md --table-layout fixed
该选项会调用converter_utils/docx/pre_process.py中的表格优化算法,提高转换质量。
问题3:大型附件处理缓慢
处理包含多个大型附件的邮件时,可以启用分块处理模式:
markitdown convert -i big_email.msg -o result.md --chunk-size 1024
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



