不是简单搜索，而是理解：让获取的论文会“语义对话”-优快云博客

01 先说一句大实话：信息不是少，而是太多了

如果你做过科研、写过文献综述，或者只是帮同事找过一篇论文，你大概率体验过这种心情：

你输入关键词：“EEG”、“AF detection”、“signal processing”——
结果里要么不相关，要么重复，要么只是换了说法但本质相同。

搜索引擎没有理解你，它只是做了一个“字符串对字符串”的机械匹配。

PubMed、IEEE Xplore、Wiley Online Library 都功能强大，但它们仍然基于传统检索逻辑运作。想找概念、语义、研究思路、类似但上下游不同的论文？那可能得靠运气、经验和慢慢过滤。

但如果把爬下来的研究内容向量化（embedding），并存入向量数据库（Milvus、Faiss、Weaviate 等），事情就变得有趣了：

搜“Electrocardiogram”，也能返回“heart rhythm monitoring”
搜“deep learning on medical signals”，也能找到“CNN-based ECG classification”
搜“pain recognition”，甚至可能找到“facial electromyography emotion classification”

换句话说，它不是“匹配单词”，而是“理解你要找什么”。

02 灵感来自一个再普通不过的问题：

如果我们把爬下来的论文不是简单存成数据库，而是直接变成一个能做语义搜索的知识库，会怎么样？

于是这个想法自然分成了三个方向：

数据层面：怎么在合法范围内从学术数据库获取数据？（API优先）
AI 层面：怎么把论文内容拆解成段落，并转成语义向量？
检索层面：怎样让检索结果“像能对话，而不是报关键字”？

然后，一个可实验的流程就出现了：

用合法方式从 PubMed / IEEE / Wiley 获取数据 → 提取文本 → 生成 Embedding → 存向量数据库 → 做语义检索。

03 实现过程（这部分是核心）

先强调一下：
PubMed 提供开放 API，可以合法访问；
IEEE 和 Wiley 部分接口需要授权/API Key/TDM Token。
不要绕过付费墙，也不要批量下载论文 PDF 用于分发。

目标是提升科研效率，而不是制造版权问题。

下面是一个小型可复现 Demo ——不是为了抓“更多”，而是验证“抓完之后能不能变聪明”。

示例代码（含中文注释、代理占位符）

"""
向量检索科研抓取原型
——代理 + PubMed API + 向量生成 + FAISS语义检索
"""

import requests
from sentence_transformers import SentenceTransformer
import faiss
import numpy as np
from tqdm import tqdm

# ========= 代理示例（亿牛云代理 www.16yun.cn） =========
PROXY_HOST = "proxy.16yun.cn"
PROXY_PORT = "12345"
PROXY_USER = "your_user"
PROXY_PASS = "your_pass"

proxy = {
    "http": f"http://{PROXY_USER}:{PROXY_PASS}@{PROXY_HOST}:{PROXY_PORT}",
    "https": f"http://{PROXY_USER}:{PROXY_PASS}@{PROXY_HOST}:{PROXY_PORT}"
}

# ========= PubMed API =========
NCBI = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils"
EMAIL = "your_email@example.com"

def search_pubmed(query, limit=20):
    r = requests.get(
        f"{NCBI}/esearch.fcgi",
        params={"db":"pubmed","term":query,"retmax":limit,"retmode":"json","email":EMAIL},
        proxies=proxy,
        timeout=20
    )
    return r.json()["esearchresult"]["idlist"]

def fetch_text(pmids):
    ids = ",".join(pmids)
    r = requests.get(
        f"{NCBI}/efetch.fcgi",
        params={"db":"pubmed","id":ids,"retmode":"xml","email":EMAIL},
        proxies=proxy,
        timeout=30
    )
    return r.text

# ========= embedding + FAISS =========
model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")

def build_vector_index(texts):
    vecs = model.encode(texts, convert_to_numpy=True)
    index = faiss.IndexFlatL2(vecs.shape[1])
    index.add(vecs)
    return index, vecs

keyword = "electrocardiogram signal analysis"
pmids = search_pubmed(keyword)

print(f"找到 {len(pmids)} 篇文章，准备处理...")

raw_xml = fetch_text(pmids)

texts = [t for t in raw_xml.split("\n") if len(t.strip()) > 20]

index, vecs = build_vector_index(texts)

query = "ECG deep learning classification"
q_vec = model.encode([query], convert_to_numpy=True)

D, I = index.search(q_vec, 3)

print("\n语义检索结果：\n")
for idx in I[0]:
    print(texts[idx][:200], "...\n")