开源项目 textbook_quality
使用教程
1. 项目的目录结构及介绍
textbook_quality/
├── alembic/
│ └── alembic.ini
├── app/
│ ├── data/
│ ├── llm/
│ ├── services/
│ └── settings.py
├── notebooks/
├── scripts/
├── .gitignore
├── LICENSE
├── README.md
├── book_generator.py
├── poetry.lock
├── pyproject.toml
├── tasks.py
├── toc_cleaner.py
├── topic_augmentor.py
└── topic_generator.py
目录结构介绍
- alembic/: 包含数据库迁移配置文件
alembic.ini
。 - app/: 核心应用程序目录,包含数据存储目录
data/
、语言模型相关代码llm/
、服务相关代码services/
以及配置文件settings.py
。 - notebooks/: 存放 Jupyter Notebook 文件,用于数据分析和实验。
- scripts/: 存放脚本文件,用于执行各种任务。
- .gitignore: Git 忽略文件配置。
- LICENSE: 项目许可证文件。
- README.md: 项目说明文件。
- book_generator.py: 生成教科书的主要脚本。
- poetry.lock: Poetry 依赖锁定文件。
- pyproject.toml: Poetry 项目配置文件。
- tasks.py: 任务管理脚本。
- toc_cleaner.py: 处理目录结构的脚本。
- topic_augmentor.py: 主题增强脚本。
- topic_generator.py: 主题生成脚本。
2. 项目的启动文件介绍
book_generator.py
book_generator.py
是项目的主要启动文件之一,用于生成教科书。它接受一个包含主题的 JSON 文件作为输入,并生成相应的教科书。
主要功能
- 生成教科书: 根据输入的主题文件生成教科书。
- 并行生成: 支持多线程并行生成,提高效率。
- 配置覆盖: 可以通过环境变量覆盖默认配置。
topic_generator.py
topic_generator.py
用于从零开始生成主题。它接受一个主题名称和迭代次数作为输入,生成一系列相关主题。
主要功能
- 生成主题: 从零开始生成主题。
- 去重: 自动去重生成的主题。
topic_augmentor.py
topic_augmentor.py
用于增强现有主题。它接受一个包含种子主题的文件作为输入,并生成更多相关主题。
主要功能
- 主题增强: 基于现有种子主题生成更多相关主题。
- 语义去重: 自动去重生成的主题。
3. 项目的配置文件介绍
pyproject.toml
pyproject.toml
是 Poetry 项目的配置文件,用于管理项目的依赖和构建配置。
主要配置项
- 依赖管理: 定义项目所需的 Python 依赖包。
- 构建配置: 配置项目的构建选项。
settings.py
settings.py
是应用程序的核心配置文件,包含项目的各种配置项。
主要配置项
- API 密钥: 配置 OpenAI 和其他 API 的密钥。
- 模型类型: 配置使用的语言模型类型。
- 数据目录: 配置数据存储目录。
- 检索后端: 配置使用的检索后端(如 Serply 或 SerpAPI)。
alembic.ini
alembic.ini
是 Alembic 数据库迁移工具的配置文件,用于管理数据库的版本控制。
主要配置项
- 数据库连接: 配置数据库连接字符串。
- 迁移脚本目录: 配置迁移脚本存储目录。
通过以上配置文件,可以灵活地调整项目的运行环境和行为,满足不同的需求。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考