使用Mastodon.py加载Mastodon用户的公开帖文

最新推荐文章于 2025-04-26 21:03:53 发布

fgayif

最新推荐文章于 2025-04-26 21:03:53 发布

阅读量382

点赞数 4

文章标签： python linux 开发语言

本文链接：https://blog.youkuaiyun.com/fgayif/article/details/146454172

版权

在社交媒体日益去中心化的今天，Mastodon作为一个联邦式社交媒体平台吸引了大量用户。借助Mastodon.py，我们可以轻松地抓取Mastodon账户的公开帖子内容。这篇文章将通过示例代码展示如何使用MastodonTootsLoader从Mastodon提取帖子内容。

技术背景介绍

Mastodon是一个去中心化的社交网络系统，允许用户在不同的主机（实例）上注册、共享内容。这种去中心化的方法不仅增强了隐私性，还令用户数据不再集中于少数几家公司。

Mastodon.py是一个Python包，提供便捷的API接口，帮助开发者从Mastodon平台获取数据。本次演示将使用langchain_community的MastodonTootsLoader来获取特定用户的最近公共帖子。

核心原理解析

MastodonTootsLoader利用Mastodon的API，通过提供的账户名称，抓取用户的公共帖子。对于非公共账号或特定实例，用户需要注册Mastodon应用获取访问令牌，以便认证和访问。

代码实现演示

下面的代码展示了如何使用MastodonTootsLoader来加载Mastodon用户的公开帖子：

from langchain_community.document_loaders import MastodonTootsLoader

# 首先确保安装了Mastodon.py库
# %pip install --upgrade --quiet Mastodon.py

# 创建一个Loader对象，指定Mastodon账户和要提取的帖子数量
loader = MastodonTootsLoader(
    mastodon_accounts=["@Gargron@mastodon.social"],
    number_toots=50,  # 默认是100，可以根据需求调整
)

# 如果需要访问私有账户或实例，请设置访问令牌和基础API URL
# loader = MastodonTootsLoader(
#     access_token="<ACCESS TOKEN OF MASTODON APP>",
#     api_base_url="<API BASE URL OF MASTODON APP INSTANCE>",
#     mastodon_accounts=["@Gargron@mastodon.social"],
#     number_toots=50,
# )

# 加载帖子
documents = loader.load()

# 输出前三个帖子的内容
for doc in documents[:3]:
    print(doc.page_content)
    print("=" * 80)