Crossin先生 | Faker：轻松生成真实感的测试数据

Faker生成真实感测试数据

原创于 2025-09-24 21:55:47 发布 · 970 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #大数据 #AI编程 #github #qwen #chatgpt #python

深度学习拓展阅读专栏收录该内容

989 篇文章

订阅专栏

本文来源公众号“Crossin先生”，仅用于学术分享，侵权删，干货满满。

原文链接：https://mp.weixin.qq.com/s/IiH-vQhlfKYpADLf4_Tr7A

在开发或测试中，我们经常会遇到需要生成数据的需求：比如填充数据库、测试应用程序、模拟真实场景等。如果手动创建数据会非常费时费力。在 Python 生态里，这种痛点需求一定已经有前人解决过。

Faker 就是这样一个开源 Python 库，用于生成各种真实感的伪造数据，如姓名、地址、电话号码、邮箱等。它支持多种语言，能够生成符合特定文化背景的假数据。Faker 广泛应用于测试、数据模拟和隐私保护场景。

今天 Crossin 就带你了解 Faker 的基本用法。

1. 安装

通过 pip 安装 Faker：

pip install faker

安装完成后，即可导入并使用 Faker 库。

2. 基本用法

以下展示如何使用 Faker 生成常见的假数据。我们以中文环境为例，初始化 Faker 实例后，可以生成姓名、地址、邮箱等数据。

from faker import Faker
# 创建 Faker 实例，指定中文环境fake = Faker('zh_CN')
# 生成常用假数据print("姓名:", fake.name())  # 随机姓名print("名字:", fake.first_name())  # 名字print("姓氏:", fake.last_name())  # 姓氏print("用户名:", fake.user_name())  # 用户名print("身份证号:", fake.ssn())  # 中国身份证号print("邮箱:", fake.email())  # 随机邮箱print("公司邮箱:", fake.company_email())  # 公司邮箱print("电话:", fake.phone_number())  # 电话号码print("完整地址:", fake.address())  # 完整地址print("城市:", fake.city())  # 城市print("邮编:", fake.postcode())  # 邮政编码print("生日:", fake.date_of_birth(minimum_age=18, maximum_age=80))  # 随机生日print("日期:", fake.date())  # 随机日期print("时间:", fake.time())  # 随机时间print("公司名:", fake.company())  # 随机公司名print("职业:", fake.job())  # 随机职业print("文本:", fake.text(max_nb_chars=50))  # 随机文本print("颜色:", fake.color_name())  # 随机颜色名

输出示例（每次运行结果不同）：

姓名: 许冬梅名字: 娟姓氏: 王用户名: yangzheng身份证号: 230709200611064797邮箱: min49@example.net公司邮箱: caijuan@caogao.cn电话: 18541199463完整地址: 湖南省玉梅县南湖谢街v座 805183城市: 巢湖县邮编: 276854生日: 2006-08-22日期: 2018-10-08时间: 10:07:15公司名: 中建创业信息有限公司职业: 产品总监文本: 运行教育世界之后拥有.科技留言得到程序国际谢谢广告全部.之后增加图片.颜色: Chartreuse

通过 Faker('zh_CN') 指定中文环境，生成的数据符合中文语境。你也可以使用其他语言代码，如 'en_US'（美式英语）或 'ja_JP'（日语）。

3. 自定义种子

在测试中，有时需要生成固定的假数据。Faker 支持通过设置种子来控制随机性：

from faker import Faker
fake = Faker('zh_CN')Faker.seed(123)  # 设置种子
print(fake.name())  # 固定输出：刘桂荣print(fake.address())  # 固定输出：河北省海门县怀柔合肥路S座 720619

通过 Faker.seed() 设置种子后，每次运行都会生成相同的假数据，非常适合需要可重复结果的场景。

4. 自定义数据格式

Faker 允许通过 Provider 自定义数据生成规则。例如，生成特定格式的用户名：

from faker import Fakerfrom faker.providers import BaseProvider
# 创建自定义 Providerclass CustomProvider(BaseProvider):    def custom_username(self):        return f"user_{self.random_int(min=1000, max=9999)}"
# 初始化 Faker 并添加自定义 Providerfake = Faker('zh_CN')fake.add_provider(CustomProvider)
# 生成自定义用户名print(fake.custom_username())  # 输出示例：user_5703

通过继承 BaseProvider，你可以定义自己的数据生成逻辑，满足特定需求。

5. 开发实例

在实际项目中，我们常需生成多条数据并保存为文件（如 CSV）。以下是一个生成 100 条用户数据并保存为 CSV 的示例：

import pandas as pdfrom faker import Faker
fake = Faker('zh_CN')
# 生成 100 条用户数据data = [{    '姓名': fake.name(),    '邮箱': fake.email(),    '电话': fake.phone_number(),    '地址': fake.address()} for _ in range(100)]
# 保存为 CSVdf = pd.DataFrame(data)df.to_csv('fake_users.csv', index=False, encoding='utf-8')
print("数据已保存到 fake_users.csv")

输出示例（部分数据）：

{'姓名': '李娜', '邮箱': 'xiaohua.li@example.com', '电话': '13987654321', '地址': '上海市浦东新区人民路1号'}{'姓名': '王强', '邮箱': 'qiang.wang@example.com', '电话': '13812345678', '地址': '北京市朝阳区幸福路12号'}...

运行后，会生成一个 fake_users.csv 文件，包含 100 条用户数据，适用于数据库填充或测试。

6. 其他类似模块

除了 Faker，还有其他 Python 库可以生成假数据，适用于不同场景：

1. mimesis

特点：轻量级、速度快，支持多语言，数据类型丰富。

适用场景：需要高性能生成大量数据的场景，如大数据测试。

2. factory_boy

特点：专为 ORM（如 Django ORM）设计，适合生成与数据库模型关联的测试数据。

适用场景：Web 开发中为 Django 或 SQLAlchemy 模型生成测试数据。

虽然这些模块功能各有侧重，但 Faker 的综合性和易用性使其成为最常用的选择。

7. 注意事项

语言支持：Faker 支持多种语言，但某些语言的假数据可能不够完善，建议测试后再使用。

性能：生成大量数据时，注意优化代码，避免一次性生成过多数据。

隐私：Faker 生成的假数据看似真实，请确保在敏感场景下不会误用。

版本兼容性：确保 Faker 版本与 Python 环境兼容，可通过 pip show faker 查看版本信息。

8. 总结

Faker 是一个简单而强大的工具，能帮助 Python 开发者快速生成真实感的测试数据。从基本的姓名、地址生成，到自定义数据格式和批量保存，Faker 都能轻松胜任。通过设置种子和自定义 Provider，你可以进一步扩展其功能，满足特定需求。如果需要其他工具，mimesis 和 factory_boy 也是不错的选择。

更多高级用法，请参考 Faker 官方文档：https://faker.readthedocs.io/

THE END !

文章结束，感谢阅读。您的点赞，收藏，评论是我继续更新的动力。大家有推荐的公众号可以评论区留言，共同学习，一起进步。