LLMs may Dominate Information Access: Neural Retrievers are Biased Towards LLM-Generated Texts

828 篇文章

已下架不支持订阅

大型语言模型(LLM)正改变信息检索(IR)领域,研究发现神经检索模型在排名中偏好LLM生成的文档,这种现象称为源偏见,影响IR系统的公正性。作者构建新基准并分析源偏差原因,提醒社区关注此问题,影响可能扩展至推荐系统和多模式内容检索。

本文是LLM系列文章,针对《LLMs may Dominate Information Access: Neural Retrievers are Biased Towards LLM-Generated Texts》的翻译。

摘要

最近,大型语言模型(LLM)的出现彻底改变了信息检索(IR)应用的范式,尤其是在网络搜索中。LLM凭借其生成类人文本的非凡能力,在互联网上创造了大量文本。因此,LLM时代的IR系统面临着新的挑战:索引文档现在不仅是由人类编写的,而且是由LLM自动生成的。这些LLM生成的文档如何影响IR系统是一个紧迫且尚未探索的问题。在这项工作中,我们在涉及人工书写和LLM生成文本的场景中对不同的IR模型进行了定量评估。令人惊讶的是,我们的发现表明,神经检索模型倾向于对LLM生成的文档进行更高的排名。我们将神经检索模型中对LLM生成的文本的这类偏见称为源偏见。此外,我们发现这种偏差不仅限于第一阶段的神经检索器,而且扩展到第二阶段的神经重新排序器。然后,我们从文本压缩的角度进行了深入的分析,观察到神经模型可以更好地理解LLM生成的文本的语义信息,这一点在我们的理论分析中得到了进一步的证实。我们还讨论了由观察到的源偏差引起的潜在服务器问题,并希望我们的发现能给IR社区和其他人敲响重要的警钟。为了促进未来在LLM时代对IR的探索,构建的两个新基准和代码稍后将在https://github.com/KID-22/LLM4IR-Bias上可用。

1 引言

2 研究问题1:环境构造

3 研究问题2:探索源偏差

4 研究问题3:源偏差的原因

5 讨

已下架不支持订阅

你当前的 `langgraph` 安装情况显示: ```text Requires: langchain-core, langgraph-checkpoint, langgraph-prebuilt, langgraph-sdk, pydantic, xxhash ``` **但没有看到 `postgres` 相关依赖(如 `asyncpg`, `sqlalchemy`),也没有 `langgraph[postgres]` 的痕迹。** 这说明:你虽然安装了 `langgraph`,但 **并未安装其可选依赖 `[postgres]` 扩展包**,所以 `from langgraph.checkpoint.postgres.aio import AsyncPostgresSaver` 会失败。 --- ### 🔍 根本原因分析 从你的 `pip show langgraph` 输出可以看出: - `langgraph` 自 v0.5+ 开始已将不同功能拆分为独立子包 - `checkpoint` 功能现在由 `langgraph-checkpoint` 提供 - **PostgreSQL 支持是 `langgraph-checkpoint[postgres]` 的一部分,不是 `langgraph[postgres]`** ⚠️ 这是一个关键变化: 👉 你需要安装的是: ```bash pip install "langgraph-checkpoint[postgres]" ``` 而不是旧文档中说的 `langgraph[postgres]`! --- ### ✅ 正确安装命令(2025 年最新版) ```bash pip install "langgraph-checkpoint[postgres]" ``` > 注意加引号,防止 shell 把 `[ ]` 当作特殊字符解析。 这个命令会自动安装: - `langgraph-checkpoint`(核心检查点模块) - `asyncpg`(异步 PostgreSQL 驱动) - `sqlalchemy>=2.0`(用于 async engine) - 支持 `AsyncPostgresSaver` --- ### 验证是否成功 运行测试代码: ```python try: from langgraph.checkpoint.postgres.aio import AsyncPostgresSaver print("✅ 成功导入 AsyncPostgresSaver") except Exception as e: print("❌ 导入失败:", e) ``` 如果仍然失败,请确认: 1. 是否在正确的虚拟环境中执行 `pip install` 2. 是否重启了 IDE / Notebook 内核 3. 是否使用 Python ≥ 3.9(推荐 3.10+) --- ### 补充:完整依赖建议(AIO + Postgres) 如果你正在构建一个完整的 LangGraph + PostgreSQL + 异步应用,建议一次性安装: ```bash pip install \ langgraph \ langgraph-prebuilt \ "langgraph-checkpoint[postgres]" \ asyncpg \ sqlalchemy>=2.0.0 \ psycopg2-binary # 可选:用于同步操作或迁移 ``` --- ### 常见错误示例及修复 | 错误信息 | 原因 | 解决方案 | |--------|------|---------| | `No module named 'langgraph.checkpoint.postgres'` | 缺少 postgres 扩展 | `pip install "langgraph-checkpoint[postgres]"` | | `failed to load asyncpg` | 缺少 asyncpg 或平台不支持 | 升级 pip 并重装 | | `could not locate table...` | 未调用 `.setup()` | 调用 `await saver.setup()` 初始化表 | ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值