Commonspeak 项目使用教程
1. 项目目录结构及介绍
Commonspeak 项目的目录结构如下:
commonspeak/
├── ctldata/
├── hackernews/
├── httparchive/
├── stackoverflow/
├── .gitignore
├── LICENSE.md
├── README.md
└── ...
目录介绍:
- ctldata/: 包含与证书透明度日志相关的数据和脚本。
- hackernews/: 包含与 HackerNews 数据集相关的数据和脚本。
- httparchive/: 包含与 HTTP Archive 数据集相关的数据和脚本。
- stackoverflow/: 包含与 StackOverflow 数据集相关的数据和脚本。
- .gitignore: Git 忽略文件,指定哪些文件和目录不需要被 Git 跟踪。
- LICENSE.md: 项目的许可证文件,采用 GPL-3.0 许可证。
- README.md: 项目的说明文件,包含项目的基本介绍和使用说明。
2. 项目启动文件介绍
Commonspeak 项目的主要启动文件是各个数据集目录下的 Bash 脚本。以下是一些关键的启动文件:
- hackernews/hackernews-subdomains.sh: 用于从 HackerNews 数据集中提取子域名。
- ctldata/ctl-subdomains.sh: 用于从证书透明度日志中提取子域名。
- httparchive/httparchive-subdomains.sh: 用于从 HTTP Archive 数据集中提取子域名。
使用示例:
cd commonspeak/hackernews
bash hackernews-subdomains.sh crunchbox-160315
3. 项目的配置文件介绍
Commonspeak 项目的主要配置文件是与 Google Cloud 相关的配置。以下是一些关键的配置文件和配置步骤:
Google Cloud SDK 配置
-
安装 Google Cloud SDK:
curl https://sdk.cloud.google.com | bash exec -l $SHELL gcloud init
-
创建 Google Cloud 项目:
gcloud projects create crunchbox-160315 gcloud config set project crunchbox-160315
-
配置 BigQuery:
gcloud auth login gcloud auth application-default login
其他配置
- jq 安装:
sudo apt-get install jq
通过以上配置,您可以成功启动和使用 Commonspeak 项目。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考