AI关键词分析并存入数据库

任务

实现个性化推荐功能。经过之前的开发,已经实现了根据关键词查询网页的Selenium脚本、Selenium的Flask化形成一个接口服务、Frp将本地服务映射到远程也能访问。但是Selenium的反应过慢,大约需要5分钟才能爬取完毕,这显然不可能作为一个用户功能。

本次开发的任务是根据爬取的标题,调用AI提取出关键词、存入数据库,调用推荐功能时可以根据关键词进行推荐,也可以随机推荐一些内容、增加推荐内容的多样性。

后续再实现根据用户点击内容分析用户的兴趣、提取关键词、推荐热点等功能。

取得爬虫结果

JSONArray urls = null;
if (keyword == null) return;
try {
    // debug了好久 应该是汉字出现的错误,先转成UTF8再搞
    String encodedString = URLEncoder.encode(keyword, StandardCharsets.UTF_8.toString());
    // 目标URL
    String urlString = "http://ip:5000/search?keyword=" + encodedString;
    // 用真的会等很久 开发使用mock出来的接口
    //String urlString = "http://ip:5000/mock";
    // 创建URL对象
    URL getUrl = new URL(urlString);
    // 打开连接
    HttpURLConnection connection = (HttpURLConnection) getUrl.openConnection();
    // 设置请求方法为GET
    connection.setRequestMethod("GET");
    // 获取响应码,200表示成功
    int responseCode = connection.getResponseCode();
    if (responseCode == HttpURLConnection.HTTP_OK) {
        // 读取响应内容
        BufferedReader in = new BufferedReader(new InputStreamReader(connection.getInputStream()));
        StringBuilder content = new StringBuilder();
        String inputLine;
        while ((inputLine = in.readLine()) != null) {
            content.append(inputLine);
        }
        in.close();
        // 解析JSON字符串为JSONArray
        urls = new JSONArray(content.toString());
        // test
        // System.out.println(urls);
    } else {
        System.out.println("GET request not worked, response code: " + responseCode);
    }
    connection.disconnect(); // 关闭连接
} catch (Exception e) {
    e.printStackTrace();
}
  1. String encodedString = URLEncoder.encode(keyword, StandardCharsets.UTF_8.toString());

    测试时一直出现问题,但是通过GET接口访问的Java后端,参数正常传递,但是传入后端失败,可能是汉字的编码导致的。改成UTF8编码,运行正确。

  2. urls = new JSONArray(content.toString());调用Maven Repository: org.json » json (mvnrepository.com)包,将String的返回结果转换为JSON数组串,便于后续的处理。

处理JSON数组

// 拿到了urls 开始处理
if (urls == null) return;
int step = 4;
int times = urls.length() / step + 1;
for (int j = 0; j < times; j++) {
    String message = "";
    for (int i = 0; i < step; i++) {
        int index = j * step + i;
        if (index >= urls.length() - 1) break;
        JSONArray url = new JSONArray(urls.get(index).toString());
        if (url.get(0).toString().startsWith("http") && !recommendService.isExists(url.get(0).toString()))
            message += "{title:" + url.get(1) + ",url:" + url.get(0) + "}\n";
    }
  1. 首先检查 urls 是否为 null,然后将每 step 个 URL 分成一组进行处理。

  2. 数据清洗:确保每个连接可以访问且不重复。对于每个 URL,如果它以 "http" 开头且不在 recommendService 中存在,才进行处理这个URL。

  3. 满足条件的标题和 URL,以{title:{title},url:{url}}的格式加入 message 字符串中,留着后续处理。

AI处理关键词

Prompt提示词

你是一个归纳概括的专家,接下来我将按照固定格式给你一个关键词和若干标题和网址:
关键词:{关键词}
{title:{标题},url:{网址}}
...
{title:{标题},url:{网址}}
请根据以上的标题和关键词分析,提取关键词,关键词尽可能多,按照JSON数组格式输出(此外一定不要输出任何多余的开头、结尾、注释!!)
[
    {
        "title":{原来的标题},
        "keywords"::[{提取的关键词1},...,{提取的关键词2}],
        "url":{原来的网址}
    },
...
    {
        "title":{原来的标题},
        "keywords"::[{提取的关键词1},...,{提取的关键词2}],
        "url":{原来的网址}
    }
]
(每一条产生一行,若标题信息不足,该行可删去)

代码

String role = {prompt提示词};
message = "关键词:" + keyword + "\n" + message;
String answer = callWithMessageAndRole(message, role);

callWithMessageAndRole是调用之前的AI接口,同时设置角色和消息。拼接message,得到JSON字符串。

存入数据库

处理如下的数据:

```json
[
    {
        "title":{原来的标题},
        "keywords"::[{提取的关键词1},...,{提取的关键词2}],
        "url":{原来的网址}
    },
...
    {
        "title":{原来的标题},
        "keywords"::[{提取的关键词1},...,{提取的关键词2}],
        "url":{原来的网址}
    }
]
```

首先将前后的代码注释标记符去掉,可以直接使用String的replace即可。继续使用JSONArray类解析。

反复地改变Step的值,发现当Step大于4时,返回的结果发生格式错误,无法作为JSON解析。

尽管Step等于4,处理速度比较慢,但是都是存入数据库,这里慢一些没有太多影响。

answer = answer.replace("```json", "");
answer = answer.replace("```", "");
JSONArray jsonObjs;
try {
jsonObjs = new JSONArray(answer);
} catch (Exception e) {
continue;
}
for (int i = 0; i < jsonObjs.length(); i++) {
JSONObject jsonObject = jsonObjs.getJSONObject(i);
Recommend recommend = new Recommend();
recommend.setTitle(jsonObject.getString("title"));
recommend.setKeywords(jsonObject.getJSONArray("keywords").toString());
recommend.setUrl(jsonObject.getString("url"));
recommendService.add(recommend);
}

最后使用jsonObjectget方法,取到了JSON结果,再存如数据库。

体会和后续

经过本次的开发,实现了AI的数据清洗并存入数据库。实现了功能,但效率有提升的空间。本次开发的实现代码都写入了AiController这个类,后续准备将一些功能提取成方法,写入Service中并在ServiceImpl中实现,比较符合开发规范。调用通义千问API对本地机器负荷不大,这一块循环调用在后续考虑改成多线程请求,或许可以提高开发效率。此外,在本次关键词提取时,AI是根据关键词和标题进行关键词分析,我们在传参时也传入了URL,返回了原本的URL,这造成了一些Token的浪费,但是AI有可能对链接进行删除,如果简单的对应,可能会造成URL和标题错位,后续可能需要更改传参方式和Prompt提示词增加Token的利用率。

<think>嗯,用户现在的问题是关于如何将使用开源本地大模型(如DeepSeek)提取的文本结果自动存储到本地数据库。我需要结合他们之前提供的引用内容来回答这个问题。首先,用户提到参考了三个引用,其中引用[1]提到Wren AI和Ollama用于查询MySQL数据库,引用[2]提到了RAGFlow和向量数据库,引用[3]则涉及DeepSeek-V3和本地知识库的搭建。 用户的上一个问题已经涉及到了使用DeepSeek进行文本提取,现在他们想知道如何将结果自动存入本地数据库。之前的回答中,我给出了一个基于Python的示例,包括使用PyMuPDF和OCR提取文本,然后用RAG处理,最后通过模型生成回答。现在需要扩展这个流程,加入数据库存储的部分。 首先,我需要考虑用户可能使用的数据库类型。常见的本地数据库有SQLite、MySQL、PostgreSQL等。引用[1]中提到Wren AI支持MySQL,所以可能需要一个示例连接MySQL的方法。不过为了简化,可能先以SQLite为例,因为它不需要服务器,适合本地存储。 然后,要确定存储的数据结构。用户提取的文本可能包含结构化的信息,比如医疗报告中的指标或法律条款,所以需要设计合适的数据库表结构。比如,可以有一个主表存储文档元数据,另一个表存储提取的内容,可能还有关联的向量嵌入。 接下来,如何将处理后的结果存入数据库。在之前的代码示例中,处理后的结果是通过模型生成的回答,可能需要将这些回答解析存储到数据库的相应字段中。例如,在医疗报告中提取的血压、血糖等数值,可以对应到数据库的列中。 另外,引用[2]提到了RAGFlow解析和向量数据库,这可能涉及到将文本的向量嵌入存储到向量数据库如FAISS或Milvus中,但用户的问题是关于本地传统数据库,所以可能需要同时处理结构化数据和向量数据。 还需要考虑自动化流程,即提取、处理、存储整个流程无需人工干预。可能需要使用任务队列或批处理脚本,例如使用Python的ThreadPoolExecutor进行多线程处理,或者结合Celery进行任务调度。 此外,数据安全性和隐私保护也是需要考虑的因素,特别是处理敏感信息时,确保数据库的访问控制和加密措施到位。 可能的步骤包括:设计数据库模式,编写数据库连接代码,在文本处理流程结束后插入数据,以及可能的错误处理和事务管理。还需要考虑如何将非结构化数据(如提取的文本块)与结构化数据(如元数据)结合存储。 用户可能还希望有数据查询和检索的功能,所以需要确保数据库的设计支持高效查询,比如通过文档ID或关键词搜索提取的内容。 最后,需要提供具体的代码示例,展示如何将之前提取的文本结果存储到数据库中,可能结合引用中的Wren AI或RAGFlow提到的组件,比如使用ORM框架简化数据库操作,或者直接使用SQL语句。 需要确保代码示例兼容用户提到的技术栈,比如DeepSeek-R1模型、PyMuPDF、FAISS等,同时保持代码简洁易懂。可能还需要提到性能优化,比如批量插入数据以减少数据库连接开销,或者使用连接池管理数据库连接。</think>### 分步骤实现DeepSeek文本提取结果自动存储方案 #### 一、系统架构设计 ```mermaid graph LR A[PDF文件] --> B(DeepSeek-R1模型) B --> C{数据类型判断} C -->|结构化数据| D[MySQL/SQLite] C -->|非结构化数据| E[Elasticsearch] C -->|向量数据| F[FAISS/Milvus] D --> G[业务系统调用] E --> G F --> G ``` #### 二、核心实现代码(结合引用[1][2]) 1. **数据库连接层(以SQLite为例)** ```python import sqlite3 from sqlite3 import Error class DBManager: def __init__(self, db_path='extracted_data.db'): self.conn = None try: self.conn = sqlite3.connect(db_path) self._create_tables() except Error as e: print(f"数据库连接失败: {e}") def _create_tables(self): # 主文档表(存储文档元数据) self.conn.execute('''CREATE TABLE IF NOT EXISTS documents (id INTEGER PRIMARY KEY AUTOINCREMENT, file_name TEXT NOT NULL, process_time DATETIME DEFAULT CURRENT_TIMESTAMP)''') # 内容存储表(存储提取结果) self.conn.execute('''CREATE TABLE IF NOT EXISTS content (doc_id INTEGER, content_type TEXT CHECK(content_type IN ('text', 'table', 'figure')), content_text TEXT, vector BLOB, FOREIGN KEY(doc_id) REFERENCES documents(id))''') ``` 2. **存储逻辑集成(扩展原处理流程)** ```python def process_pdf(file_path, question): # 原处理流程 text = extract_text(file_path) # 使用引用[2]的RAGFlow解析方法 query_engine = rag_processing(text) answer = query_engine(question) # 新增存储逻辑 db = DBManager() cur = db.conn.cursor() # 插入文档元数据 cur.execute("INSERT INTO documents (file_name) VALUES (?)", (os.path.basename(file_path),)) doc_id = cur.lastrowid # 存储结构化内容(使用引用[1]的Wren AI能力) if is_structured_data(answer): # 处理表格等结构化数据 structured_data = parse_structured(answer) for item in structured_data: cur.execute('''INSERT INTO content (doc_id, content_type, content_text) VALUES (?, 'table', ?)''', (doc_id, json.dumps(item))) else: # 存储文本内容 cur.execute('''INSERT INTO content (doc_id, content_type, content_text) VALUES (?, 'text', ?)''', (doc_id, answer)) # 存储向量数据(结合引用[3]的DeepSeek-V3能力) encoder = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2') vector = encoder.encode([answer])[0].tobytes() cur.execute('''UPDATE content SET vector = ? WHERE doc_id = ? AND content_type = 'text' ''', (vector, doc_id)) db.conn.commit() return answer ``` #### 三、高级功能实现 1. **自动模式识别(基于引用[3]的MoE架构)** ```python def is_structured_data(text): # 使用DeepSeek的MoE架构判断数据类型 prompt = f"""判断以下内容是否包含结构化数据(表格/键值对): {text} 只需回答是或否""" inputs = tokenizer(prompt, return_tensors="pt").to("cuda") outputs = model.generate(**inputs, max_new_tokens=10) return "是" in tokenizer.decode(outputs[0]) ``` 2. **混合存储策略(结合引用[2]的向量数据库)** ```python def hybrid_storage(doc_id, text): # 文本存储 store_to_sql(doc_id, text) # 向量存储 store_to_faiss(doc_id, text) # 日志存储 store_to_elasticsearch(doc_id, text) def store_to_faiss(doc_id, text): # 使用引用[2]的RAGFlow架构 index = faiss.read_index("vector.index") vector = encoder.encode([text])[0] index.add(np.array([vector])) faiss.write_index(index, "vector.index") ``` #### 四、性能优化方案 1. **批量写入加速** ```python def batch_insert(records): db = DBManager() try: db.conn.executemany('''INSERT INTO content (doc_id, content_type, content_text) VALUES (?, ?, ?)''', records) db.conn.commit() except Error as e: print(f"批量插入失败: {e}") finally: db.conn.close() ``` 2. **数据压缩存储** ```python import zlib def compress_text(text): return zlib.compress(text.encode('utf-8')) def decompress_text(blob): return zlib.decompress(blob).decode('utf-8') ``` #### 五、典型应用场景 1. **医疗报告归档** ```python # 存储检验指标 process_pdf("blood_test.pdf", "提取所有血液检测指标及其参考值范围") ``` 2. **合同条款管理** ```python # 自动建立条款索引 process_pdf("contract.pdf", "列出所有违约责任条款标注条款编号") ``` ### 存储方案对比 | 存储类型 | 适用场景 | 技术实现 | 查询效率 | |----------------|-------------------------|--------------------------|--------| | SQLite | 结构化数据/元数据 | 关系型数据库 | ⭐⭐⭐⭐ | | FAISS | 语义相似度搜索 | 向量索引 | ⭐⭐⭐⭐ | | Elasticsearch | 全文检索 | 倒排索引 | ⭐⭐⭐⭐ | | Parquet文件 | 大规模批处理数据 | 列式存储 | ⭐⭐⭐ | --相关问题--: 1. 如何实现DeepSeek提取结果与现有业务系统的数据同步? 2. 有哪些适用于本地化部署的轻量级向量数据库方案? 3. 如何保障医疗数据存储过程符合HIPAA合规要求?
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值