HtmlRAG + OpenAI实战：打造智能网页问答系统

最新推荐文章于 2025-08-19 01:43:40 发布

原创最新推荐文章于 2025-08-19 01:43:40 发布 · 485 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#embedding #人工智能 #深度学习 #计算机技术 #大模型应用 #RAG #问答系统

随着ChatGPT的普及，越来越多的开发者开始探索如何将OpenAI强大的语言模型能力与RAG技术相结合。今天，让我们深入探讨如何使用OpenAI API构建一个高性能的HtmlRAG问答系统。

技术栈选择

—

OpenAI API: gpt-3.5-turbo/gpt-4
Beautiful Soup: HTML解析
FAISS: 向量存储
Sentence Transformers: 文本向量化
Redis: 缓存系统

核心代码实现

—

首先，让我们实现一个完整的HtmlRAG系统：

import openai
from bs4 import BeautifulSoup
import requests
from sentence_transformers import SentenceTransformer
import faiss
import numpy as np
import redis
from typing import List, Dict
import json

class HtmlRAGSystem:
    def __init__(self, openai_api_key: str):
        # 初始化OpenAI
        openai.api_key = openai_api_key
        
        # 初始化向量模型
        self.encoder = SentenceTransformer('all-MiniLM-L6-v2')
        
        # 初始化Redis缓存
        self.redis_client = redis.Redis(host='localhost', port=6379, db=0)
        
        # 初始化向量索引
        self.vector_dim = 384  # MiniLM的输出维度
        self.index = faiss.IndexFlatL2(self.vector_dim)
        
    def fetch_and_parse_html(self, url: str) -> Dict:
        """获取并解析HTML内容"""
        # 检查缓存
        cache_key = f"html:{url}"
        cached_content = self.redis_client.get(cache_key)
        
        if cached_content:
            return json.loads(cached_content)
            
        response = requests.get(url)
        soup = BeautifulSoup(response.text, 'html.parser')
        
        # 提取结构化内容
        content = {
            'title': soup.title.string if soup.title else '',
            'headings': [],
            'paragraphs': [],
            'tables': []
        }
        
        # 提取标题
        for h in soup.find_all(['h1', 'h2', 'h3']):
            if h.text.strip():
                content['headings'].append({
                    'text': h.text.strip(),
                    'level': int(h.name[1])
                })
                
        # 提取段落
        for p in soup.find_all('p'):
            if p.text.strip():
                content['paragraphs'].append(p.text.strip())
                
        # 提取表格
        for table in soup.find_all('table'):
            content['tables'].append(self._parse_table(table))
            
        # 缓存结果
        self.redis_client.setex(
            cache_key,
            3600,  # 1小时过期
            json.dumps(content)
        )
        
        return content
        
    def _parse_table(self, table) -> List[List[str]]:
        """解析HTML表格"""
        parsed_table = []
        for row in table.find_all('tr'):
            parsed_row = []
            for cell in row.find_all(['td', 'th']):
                parsed_row.append(cell.text.strip())
            if parsed_row:
                parsed_table.append(parsed_row)
        return parsed_table
        
    def create_embeddings(self, texts: List[str]) -> np.ndarray:
        """生成文本嵌入向量"""
        return self.encoder.encode(texts)
        
    def retrieve_relevant_content(self, query: str, content: Dict, top_k: int = 3) -> Dict:
        """检索相关内容"""
        # 生成查询向量
        query_vector = self.encoder.encode([query])[0]
        
        # 准备所有内容及其向量
        all_texts = []
        text_types = []
        
        # 添加标题
        for heading in content['headings']:
            all_texts.append(heading['text'])
            text_types.append('heading')
            
        # 添加段落
        for para in content['paragraphs']:
            all_texts.append(para)
            text_types.append('paragraph')
            
        # 添加表格（将表格转换为文本）
        for table in content['tables']:
            table_text = ' | '.join([' '.join(row) for row in table])
            all_texts.append(table_text)
            text_types.append('table')
            
        # 生成所有文本的向量
        all_vectors = self.create_embeddings(all_texts)
        
        # 使用FAISS检索最相关的内容
        self.index = faiss.IndexFlatL2(self.vector_dim)
        self.index.add(all_vectors)
        
        D, I = self.index.search(query_vector.reshape(1, -1), top_k)
        
        # 整理检索结果
        relevant_content = {
            'headings': [],
            'paragraphs': [],
            'tables': []
        }
        
        for idx in I[0]:
            content_type = text_types[idx]
            if content_type == 'heading':
                relevant_content['headings'].append(all_texts[idx])
            elif content_type == 'paragraph':
                relevant_content['paragraphs'].append(all_texts[idx])
            else:  # table
                relevant_content['tables'].append(all_texts[idx])
                
        return relevant_content
        
    def generate_answer(self, query: str, relevant_content: Dict) -> str:
        """使用OpenAI生成答案"""
        # 构建提示
        prompt = f"""基于以下HTML文档内容，请回答问题: {query}

相关标题:
{' '.join(relevant_content['headings'])}

相关段落:
{' '.join(relevant_content['paragraphs'])}

相关表格数据:
{' '.join(relevant_content['tables'])}

请提供准确、简洁的回答，必须基于上述文档内容。
"""

        try:
            response = openai.ChatCompletion.create(
                model="gpt-3.5-turbo",
                messages=[
                    {"role": "system", "content": "你是一个专业的文档问答助手，请基于提供的文档内容回答问题。"},
                    {"role": "user", "content": prompt}
                ],
                temperature=0.7,
                max_tokens=500
            )
            return response.choices[0].message.content
        except Exception as e:
            return f"生成答案时出错: {str(e)}"
            
    def answer_question(self, query: str, url: str) -> str:
        """完整的问答流程"""
        # 1. 获取并解析HTML
        content = self.fetch_and_parse_html(url)
        
        # 2. 检索相关内容
        relevant_content = self.retrieve_relevant_content(query, content)
        
        # 3. 生成答案
        answer = self.generate_answer(query, relevant_content)
        
        return answer

# 使用示例
def main():
    # 初始化系统
    rag_system = HtmlRAGSystem('your-openai-api-key')
    
    # 测试URL和问题
    url = "https://example.com/python-web-development"
    query = "如何使用Python处理并发请求？"
    
    # 获取答案
    answer = rag_system.answer_question(query, url)
    print(f"问题: {query}\n回答: {answer}")

if __name__ == "__main__":
    main()

性能优化策略

—

向量检索优化

def optimize_index(self):
    """优化FAISS索引"""
    # 构建IVF索引以提升检索速度
    nlist = 100  # 聚类中心数量
    quantizer = faiss.IndexFlatL2(self.vector_dim)
    self.index = faiss.IndexIVFFlat(quantizer, self.vector_dim, nlist)
    self.index.train(self.vectors)

批量处理优化

from concurrent.futures import ThreadPoolExecutor

def process_urls_batch(self, urls: List[str], query: str) -> Dict[str, str]:
    """并行处理多个URL"""
    with ThreadPoolExecutor(max_workers=5) as executor:
        future_to_url = {
            executor.submit(self.answer_question, query, url): url 
            for url in urls
        }
        
        results = {}
        for future in future_to_url:
            url = future_to_url[future]
            try:
                results[url] = future.result()
            except Exception as e:
                results[url] = f"处理出错: {str(e)}"
                
        return results

实际应用效果

—

以下是一些实际应用场景的效果展示：

技术文档问答
问：Python的GIL是什么？
答：[系统生成的准确回答]
API文档解析
问：如何使用requests库发送POST请求？
答：[系统生成的准确回答]

如何学习大模型

现在社会上大模型越来越普及了，已经有很多人都想往这里面扎，但是却找不到适合的方法去学习。

作为一名资深码农，初入大模型时也吃了很多亏，踩了无数坑。现在我想把我的经验和知识分享给你们，帮助你们学习AI大模型，能够解决你们学习中的困难。

下面这些都是我当初辛苦整理和花钱购买的资料，现在我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习，等录播视频免费分享出来，需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势，它不仅能够为我们提供更多的机会和挑战，还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型，我们可以深入了解深度学习、神经网络等核心概念，并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时，掌握AI大模型还能够为我们的职业发展增添竞争力，成为未来技术领域的领导者。

再者，学习AI大模型也能为我们自己创造更多的价值，提供更多的岗位以及副业创收，让自己的生活更上一层楼。

因此，学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。