Gazouilloire：Twitter数据收集工具的最佳实践-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00912/article/details/148200586

Gazouilloire：Twitter数据收集工具的最佳实践

gazouilloire Twitter stream + search API grabber 项目地址: https://gitcode.com/gh_mirrors/ga/gazouilloire

1. 项目介绍

Gazouilloire是一个开源的命令行工具，用于从Twitter API收集推文数据。它结合了两种方法（"search"和"filter"）来最大化收集的推文数量，并能够自动填补因连接错误或重启导致的收集间隙。Gazouilloire支持多种配置选项，如特定时间段的收集、限定收集位置、解析重定向URL、下载特定类型的媒体内容以及展开Twitter对话等。它与Python 3.7或更高版本兼容。

2. 项目快速启动

首先，您需要在系统中安装Gazouilloire。可以使用pip命令来安装：

pip install gazouilloire

接下来，您需要初始化一个收集目录：

gazou init path/to/collection/directory

或者在当前目录下：

gazou init

初始化后会生成一个config.json文件，您需要打开该文件并配置收集参数。

配置Twitter API密钥和访问令牌：

"twitter": {
  "key": "<Consumer Key (API Key)>xxxxxxxxxxxxxxxxxxxxx",
  "secret": "<Consumer Secret (API Secret)>xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx",
  "oauth_token": "<Access Token>xxxxxxxxx-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx",
  "oauth_secret": "<Access Token Secret>xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
}

配置ElasticSearch连接（主机和端口）并选择一个数据库名称：

"database": {
  "host": "localhost",
  "port": 9200,
  "db_name": "medialab-tweets"
}

接着，指定您想要收集的关键词、@用户和/或URL片段：

"keywords": [
  "amour",
  "mots successifs",
  "@medialab_scpo"
],
"url_pieces": [
  "medialab.sciencespo.fr/fr"
]

完成配置后，启动数据收集：

gazou run

如果配置文件位于其他目录，可以指定路径：

gazou run path/to/collection/directory

3. 应用案例和最佳实践

案例1：收集特定主题的推文，用于数据分析。

在config.json中设置相关关键词，并运行Gazouilloire。收集到的数据可以用于情感分析、趋势预测等。
案例2：监控竞争对手或行业动态。

在config.json中添加竞争对手的Twitter账号或相关关键词，定期运行Gazouilloire以获取最新信息。
最佳实践：确保在收集大量数据时，您的ElasticSearch配置能够处理预期的数据量。根据需要调整ElasticSearch的配置和资源分配。