CHRONOS - 新闻时间线摘要

CHRONOS是一种新颖的基于检索的时间线摘要 (TLS) 方法,通过迭代提出有关主题和检索到的文档的问题来生成按时间顺序排列的摘要。为开放域 TLS 构建了一个最新的数据集,它在大小和时间线持续时间方面都超过了现有的公共数据集。

⚗️ OPEN-TLS 数据集

我们发布了用于开放域时间线摘要的 Open-TLS 数据集。

目标新闻查询以以下格式显示,地面实况时间线按以下格式显示:news_keywords.pydata/open/{NEWS_KEYWORD}/timelines.jsonl​

[["YYY-MM-DDT00:00:00", ["", "", ""]]]

Open-TLS 的统计数据包括:

🛠 运行 CHRONOS

步骤 1. 依赖
pip install -r requirements.txt
步骤 2 示例问题生成

第二步是为 中的数据集构建一个主题问题示例池。data/​

python question_exampler.py

或者,您可以使用我们提供的 ,其中包含 Crisis、T17 和 Open-TLS 数据集的示例。data/question_examples.json​

步骤 3. 运行 CHRONOS

我们已经发布了 CHRONOS 的代码,以完成开放域的 Timeline Summarization 任务。您还可以参考我们的 modelscope 存储库来构建应用程序。streamlit​

替换键

在运行之前,请将占位符替换为您自己的 API 密钥,以调用 Qwen 或 GPT 模型。src/model.py​

DASHSCOPE_API_KEY = "YOUR_API_KEY"
OPENAI_API_KEY = "YOUR_API_KEY"

请将其替换为您自己的 BING Web 搜索 API 密钥,以从 Internet 搜索新闻。src/searcher.py​

BING_SEARCH_KEY = "YOUR_API_KEY"

如果您希望 CHRONOS 使用整个页面,而不仅仅是代码段,请替换您自己的 JINA 键。src/reader.py​

JINA_API_KEY = "YOUR_API_KEY"
运行脚本

要试验 Open-TLS 数据集,请运行:

python main.py \
      --model_name "$model" \
      --max_round "$round" \
      --dataset open \
      --output "$output_dir" \
      --question_exs

其中 是最大自我提问回合,并设置输出目录,其中包含:(1) 检索到的新闻,(2) 生成的时间线和 (3) 评估分数。"$round""$output_dir"​

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值