MegaParse隐私政策:用户数据如何被处理
1. 数据收集范围
MegaParse(以下简称"本工具")仅在用户主动使用文件解析功能时收集必要数据,具体包括:
- 文件内容:用户上传的PDF、Docx、PPTx等待解析文件的二进制数据
- 元数据:文件名、文件格式、解析时间戳等技术参数
- 配置信息:解析策略选择(如
ParserType枚举值)、表格检测选项(check_table布尔值)等功能参数
数据最小化原则:本工具不会收集用户设备信息、IP地址或其他身份标识数据,所有数据处理基于"用户发起-即时处理-结果返回"的单次交互模式。
2. 数据处理流程
2.1 数据传输机制
2.2 临时存储处理
- 内存管理:文件内容通过
io.BytesIO在内存中流转,解析完成后立即释放 - 临时文件:URL解析场景下创建的临时文件使用
tempfile.NamedTemporaryFile(delete=False)创建,但未实现自动清理机制(代码135行) - 风险提示:未清理的临时文件可能残留于服务器磁盘,需通过管理员手动删除
3. 第三方数据共享
| 服务类型 | 第三方供应商 | 数据共享内容 | 法律依据 |
|---|---|---|---|
| LLM表格解析 | OpenAI | 表格图像数据 | 用户API密钥授权 |
| 多模态处理 | Anthropic | 文档结构元数据 | 服务条款第3.2条 |
| PDF渲染 | Poppler | 页面布局数据 | 开源组件许可协议 |
用户控制权:通过
model_name参数可选择不同供应商(如gpt-4o/claude-3),禁用LLM功能时无第三方数据共享
4. 数据安全保障
4.1 技术防护措施
- 传输加密:所有API通信采用TLS 1.3加密(配置文件中
url字段均为HTTPS协议) - 内存隔离:解析任务使用独立内存空间,通过
tempfile模块实现进程级隔离 - 权限控制:服务器端采用最小权限原则,仅开放必要的文件读写权限
4.2 潜在安全风险
5. 数据保留与删除
5.1 数据生命周期
- 内存数据:解析会话结束后立即释放(典型周期<5分钟)
- 临时文件:默认保留至服务器重启,无明确自动删除机制
- 日志记录:仅记录请求状态码,不存储请求内容(代码中无日志写入逻辑)
5.2 用户删除权利
用户可通过以下方式行使数据删除权:
- 通过API端点提交删除请求(当前未实现,开发中)
- 发送邮件至support@megaparse.com并提供解析任务ID
- 服务器管理员在收到请求后24小时内手动清理相关文件
6. 合规声明
本隐私政策基于现有代码实现制定,随着工具迭代可能发生变更。关键合规要点包括:
- GDPR兼容性:未实现数据主体访问权(Right to Access)的技术支持
- CCPA兼容性:未提供"不出售我的数据"选项(因本工具不涉及数据销售)
- 开源透明度:所有数据处理逻辑可见于GitHub代码库(https://gitcode.com/GitHub_Trending/me/MegaParse)
更新通知:政策变更将通过
CHANGELOG.md发布,重大变更将通过邮件通知企业用户
7. 联系与申诉
- 数据保护专员邮箱:dpo@megaparse.com
- 申诉处理时限:15个工作日
- 争议解决途径:首先通过内部申诉,不满意可提交至监管机构
数据处理流程图
重要提示:使用本工具即表示您同意上述数据处理方式。如需特殊隐私保护需求,请联系定制化部署方案。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



