使用Telegram聊天记录加载器将Telegram聊天记录转换为LangChain聊天消息

技术背景介绍

对于希望将Telegram聊天记录导入到AI项目中的开发者来说,导入和处理这些数据可能会是一个耗时且复杂的过程。幸运的是,LangChain提供了一个Telegram聊天记录加载器,可以帮助我们轻松地将Telegram会话转换为标准的LangChain聊天消息。这篇文章将详细介绍如何使用该加载器。

核心原理解析

该加载器利用Telegram Desktop App导出的JSON格式聊天记录,将其转换为标准的LangChain聊天消息。转换过程包括三个主要步骤:

  1. 从Telegram应用导出聊天记录到本地的JSON文件。
  2. 创建一个TelegramChatLoader,并指向该JSON文件。
  3. 调用loader.load()loader.lazy_load()方法执行转换。

代码实现演示

1. 创建消息导出

首先,需要从Telegram Desktop App导出聊天记录到JSON文件。请注意,Lite版的Telegram(如MacOS版)可能没有该功能。因此,务必使用完整版的Telegram Desktop App。

导出步骤如下:

  1. 下载并打开Telegram Desktop
  2. 选择一个对话
  3. 导航到对话设置(三个点的图标)
  4. 点击“导出聊天记录”
  5. 取消选择照片和其他媒体,选择“机器可读的JSON”格式导出

示例JSON文件内容如下:

%%writefile telegram_conversation.json
{
 "name": "Jiminy",
 "type": "personal_chat",
 "id": 5965280513,
 "messages": [
  {
   "id": 1,
   "type": "message",
   "date": "2023-08-23T13:11:23",
   "date_unixtime": "1692821483",
   "from": "Jiminy Cricket",
   "from_id": "user123450513",
   "text": "You better trust your conscience",
   "text_entities": [
    {
     "type": "plain",
     "text": "You better trust your conscience"
    }
   ]
  },
  {
   "id": 2,
   "type": "message",
   "date": "2023-08-23T13:13:20",
   "date_unixtime": "1692821600",
   "from": "Batman & Robin",
   "from_id": "user6565661032",
   "text": "What did you just say?",
   "text_entities": [
    {
     "type": "plain",
     "text": "What did you just say?"
    }
   ]
  }
 ]
}

2. 创建聊天记录加载器

接下来的步骤是创建TelegramChatLoader,指向刚才导出的JSON文件。

from langchain_community.chat_loaders.telegram import TelegramChatLoader

loader = TelegramChatLoader(
    path="./telegram_conversation.json",
)

3. 加载消息

通过调用loader.load()loader.lazy_load()方法加载并转换消息。可选步骤包括合并连续的消息和将特定发送者的消息映射为AI消息。

from typing import List
from langchain_community.chat_loaders.utils import (
    map_ai_messages,
    merge_chat_runs,
)
from langchain_core.chat_sessions import ChatSession

raw_messages = loader.lazy_load()
# 合并连续的同一发送者的消息
merged_messages = merge_chat_runs(raw_messages)
# 将"Jiminy Cricket"的消息转换为AI消息
messages: List[ChatSession] = list(
    map_ai_messages(merged_messages, sender="Jiminy Cricket")
)

下一步

现在已转换的消息可以用于各种AI应用,例如微调模型、示例选择或直接进行下一个消息预测。

from langchain_openai import ChatOpenAI

llm = ChatOpenAI()

for chunk in llm.stream(messages[0]["messages"]):
    print(chunk.content, end="", flush=True)

应用场景分析

该加载器特别适用于需要批量处理Telegram消息的机器学习项目,特别是需要将实际用户对话导入AI模型进行训练和测试的场景。

实践建议

  1. 确保导出格式正确:务必使用Telegram Desktop App,并选择机器可读的JSON格式。
  2. 合理使用合并和映射功能:根据具体应用场景,灵活使用merge_chat_runsmap_ai_messages功能,以便更好地处理消息数据。

如果遇到问题欢迎在评论区交流。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值