开源项目 `textbook_quality` 使用教程

开源项目 textbook_quality 使用教程

textbook_quality Generate textbook-quality synthetic LLM pretraining data 项目地址: https://gitcode.com/gh_mirrors/te/textbook_quality

1. 项目的目录结构及介绍

textbook_quality/
├── alembic/
│   └── alembic.ini
├── app/
│   ├── data/
│   ├── llm/
│   ├── services/
│   └── settings.py
├── notebooks/
├── scripts/
├── .gitignore
├── LICENSE
├── README.md
├── book_generator.py
├── poetry.lock
├── pyproject.toml
├── tasks.py
├── toc_cleaner.py
├── topic_augmentor.py
└── topic_generator.py

目录结构介绍

  • alembic/: 包含数据库迁移配置文件 alembic.ini
  • app/: 核心应用程序目录,包含数据存储目录 data/、语言模型相关代码 llm/、服务相关代码 services/ 以及配置文件 settings.py
  • notebooks/: 存放 Jupyter Notebook 文件,用于数据分析和实验。
  • scripts/: 存放脚本文件,用于执行各种任务。
  • .gitignore: Git 忽略文件配置。
  • LICENSE: 项目许可证文件。
  • README.md: 项目说明文件。
  • book_generator.py: 生成教科书的主要脚本。
  • poetry.lock: Poetry 依赖锁定文件。
  • pyproject.toml: Poetry 项目配置文件。
  • tasks.py: 任务管理脚本。
  • toc_cleaner.py: 处理目录结构的脚本。
  • topic_augmentor.py: 主题增强脚本。
  • topic_generator.py: 主题生成脚本。

2. 项目的启动文件介绍

book_generator.py

book_generator.py 是项目的主要启动文件之一,用于生成教科书。它接受一个包含主题的 JSON 文件作为输入,并生成相应的教科书。

主要功能
  • 生成教科书: 根据输入的主题文件生成教科书。
  • 并行生成: 支持多线程并行生成,提高效率。
  • 配置覆盖: 可以通过环境变量覆盖默认配置。

topic_generator.py

topic_generator.py 用于从零开始生成主题。它接受一个主题名称和迭代次数作为输入,生成一系列相关主题。

主要功能
  • 生成主题: 从零开始生成主题。
  • 去重: 自动去重生成的主题。

topic_augmentor.py

topic_augmentor.py 用于增强现有主题。它接受一个包含种子主题的文件作为输入,并生成更多相关主题。

主要功能
  • 主题增强: 基于现有种子主题生成更多相关主题。
  • 语义去重: 自动去重生成的主题。

3. 项目的配置文件介绍

pyproject.toml

pyproject.toml 是 Poetry 项目的配置文件,用于管理项目的依赖和构建配置。

主要配置项
  • 依赖管理: 定义项目所需的 Python 依赖包。
  • 构建配置: 配置项目的构建选项。

settings.py

settings.py 是应用程序的核心配置文件,包含项目的各种配置项。

主要配置项
  • API 密钥: 配置 OpenAI 和其他 API 的密钥。
  • 模型类型: 配置使用的语言模型类型。
  • 数据目录: 配置数据存储目录。
  • 检索后端: 配置使用的检索后端(如 Serply 或 SerpAPI)。

alembic.ini

alembic.ini 是 Alembic 数据库迁移工具的配置文件,用于管理数据库的版本控制。

主要配置项
  • 数据库连接: 配置数据库连接字符串。
  • 迁移脚本目录: 配置迁移脚本存储目录。

通过以上配置文件,可以灵活地调整项目的运行环境和行为,满足不同的需求。

textbook_quality Generate textbook-quality synthetic LLM pretraining data 项目地址: https://gitcode.com/gh_mirrors/te/textbook_quality

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

计蕴斯Lowell

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值