随着ChatGPT的普及,越来越多的开发者开始探索如何将OpenAI强大的语言模型能力与RAG技术相结合。今天,让我们深入探讨如何使用OpenAI API构建一个高性能的HtmlRAG问答系统。
技术栈选择
—
- OpenAI API: gpt-3.5-turbo/gpt-4
- Beautiful Soup: HTML解析
- FAISS: 向量存储
- Sentence Transformers: 文本向量化
- Redis: 缓存系统
核心代码实现
—
首先,让我们实现一个完整的HtmlRAG系统:
import openai
from bs4 import BeautifulSoup
import requests
from sentence_transformers import SentenceTransformer
import faiss
import numpy as np
import redis
from typing import List, Dict
import json
class HtmlRAGSystem:
def __init__(self, openai_api_key: str):
# 初始化OpenAI
openai.api_key = openai_api_key
# 初始化向量模型
self.encoder = SentenceTransformer('all-MiniLM-L6-v2')
# 初始化Redis缓存
self.redis_client = redis.Redis(host='localhost', port=6379, db=0)
# 初始化向量索引
self.vector_dim = 384 # MiniLM的输出维度
self.index = faiss.IndexFlatL2(self.vector_dim)
def fetch_and_parse_html(self, url: str) -> Dict:
"""获取并解析HTML内容"""
# 检查缓存
cache_key = f"html:{url}"
cached_content = self.redis_client.get(cache_key)
if cached_content:
return json.loads(cached_content)
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 提取结构化内容
content = {
'title': soup.title.string if soup.title else '',
'headings': [],
'paragraphs': [],
'tables': []
}
# 提取标题
for h in soup.find_all(['h1', 'h2', 'h3']):
if h.text.strip():
content['headings'].append({
'text': h.text.strip(),
'level': int(h.name[1])
})
# 提取段落
for p in soup.find_all('p'):
if p.text.strip():
content['paragraphs'].append(p.text.strip())
# 提取表格
for table in soup.find_all('table'):
content['tables'].append(self._parse_table(table))
# 缓存结果
self.redis_client.setex(
cache_key,
3600, # 1小时过期
json.dumps(content)
)
return content
def _parse_table(self, table) -> List[List[str]]:
"""解析HTML表格"""
parsed_table = []
for row in table.find_all('tr'):
parsed_row = []
for cell in row.find_all(['td', 'th']):
parsed_row.append(cell.text.strip())
if parsed_row:
parsed_table.append(parsed_row)
return parsed_table
def create_embeddings(self, texts: List[str]) -> np.ndarray:
"""生成文本嵌入向量"""
return self.encoder.encode(texts)
def retrieve_relevant_content(self, query: str, content: Dict, top_k: int = 3) -> Dict:
"""检索相关内容"""
# 生成查询向量
query_vector = self.encoder.encode([query])[0]
# 准备所有内容及其向量
all_texts = []
text_types = []
# 添加标题
for heading in content['headings']:
all_texts.append(heading['text'])
text_types.append('heading')
# 添加段落
for para in content['paragraphs']:
all_texts.append(para)
text_types.append('paragraph')
# 添加表格(将表格转换为文本)
for table in content['tables']:
table_text = ' | '.join([' '.join(row) for row in table])
all_texts.append(table_text)
text_types.append('table')
# 生成所有文本的向量
all_vectors = self.create_embeddings(all_texts)
# 使用FAISS检索最相关的内容
self.index = faiss.IndexFlatL2(self.vector_dim)
self.index.add(all_vectors)
D, I = self.index.search(query_vector.reshape(1, -1), top_k)
# 整理检索结果
relevant_content = {
'headings': [],
'paragraphs': [],
'tables': []
}
for idx in I[0]:
content_type = text_types[idx]
if content_type == 'heading':
relevant_content['headings'].append(all_texts[idx])
elif content_type == 'paragraph':
relevant_content['paragraphs'].append(all_texts[idx])
else: # table
relevant_content['tables'].append(all_texts[idx])
return relevant_content
def generate_answer(self, query: str, relevant_content: Dict) -> str:
"""使用OpenAI生成答案"""
# 构建提示
prompt = f"""基于以下HTML文档内容,请回答问题: {query}
相关标题:
{' '.join(relevant_content['headings'])}
相关段落:
{' '.join(relevant_content['paragraphs'])}
相关表格数据:
{' '.join(relevant_content['tables'])}
请提供准确、简洁的回答,必须基于上述文档内容。
"""
try:
response = openai.ChatCompletion.create(
model="gpt-3.5-turbo",
messages=[
{"role": "system", "content": "你是一个专业的文档问答助手,请基于提供的文档内容回答问题。"},
{"role": "user", "content": prompt}
],
temperature=0.7,
max_tokens=500
)
return response.choices[0].message.content
except Exception as e:
return f"生成答案时出错: {str(e)}"
def answer_question(self, query: str, url: str) -> str:
"""完整的问答流程"""
# 1. 获取并解析HTML
content = self.fetch_and_parse_html(url)
# 2. 检索相关内容
relevant_content = self.retrieve_relevant_content(query, content)
# 3. 生成答案
answer = self.generate_answer(query, relevant_content)
return answer
# 使用示例
def main():
# 初始化系统
rag_system = HtmlRAGSystem('your-openai-api-key')
# 测试URL和问题
url = "https://example.com/python-web-development"
query = "如何使用Python处理并发请求?"
# 获取答案
answer = rag_system.answer_question(query, url)
print(f"问题: {query}\n回答: {answer}")
if __name__ == "__main__":
main()
性能优化策略
—
- 向量检索优化
def optimize_index(self):
"""优化FAISS索引"""
# 构建IVF索引以提升检索速度
nlist = 100 # 聚类中心数量
quantizer = faiss.IndexFlatL2(self.vector_dim)
self.index = faiss.IndexIVFFlat(quantizer, self.vector_dim, nlist)
self.index.train(self.vectors)
- 批量处理优化
from concurrent.futures import ThreadPoolExecutor
def process_urls_batch(self, urls: List[str], query: str) -> Dict[str, str]:
"""并行处理多个URL"""
with ThreadPoolExecutor(max_workers=5) as executor:
future_to_url = {
executor.submit(self.answer_question, query, url): url
for url in urls
}
results = {}
for future in future_to_url:
url = future_to_url[future]
try:
results[url] = future.result()
except Exception as e:
results[url] = f"处理出错: {str(e)}"
return results
实际应用效果
—
以下是一些实际应用场景的效果展示:
-
技术文档问答
-
问:Python的GIL是什么?
-
答:[系统生成的准确回答]
-
API文档解析
-
问:如何使用requests库发送POST请求?
-
答:[系统生成的准确回答]
如何学习大模型
现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。
作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。
下面这些都是我当初辛苦整理和花钱购买的资料,现在我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来
,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线
很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。
二、AI大模型视频教程
三、AI大模型各大学习书籍
四、AI大模型各大场景实战案例
五、结束语
学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。
再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。
因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。