pyspider学习过程1、pyspider的代码编写不同点和注意事项 2

由于未提供博客具体内容,无法给出包含关键信息的摘要。

高校网站爬虫与大模型问答系统 核心目标 1.通过爬虫高校官网的常见问答、通知、规章制度、院系介绍等信息 2.构建知识库,并结合大语言模型实现“用户自然语言提问 → 智能应答” 3.支持RAG(检索增强生成)、支持连续问答 4.对完成的考核点设计测试函数或测试流程,可单独执行,可视化结果展示 5.设计前端问答系统 UI,演示项目,进行答辩 步骤拆解 环境配置 推荐: LangChain等 考核点:项目结构设计 网站爬虫(构建原始知识库) 推荐:Scrapy、PySpider等爬虫工具 考核点:自动去重(按 URL 或内容 hash);周期性爬虫;内容清洗;网页附件内容提取 分词与向量化 推荐: 分词工具:LangChain、Jieba、pkuseg等 向量化:bge-small-zh、Embedding、word2vec等 考核点:切分准确性;一致性;效率;近义语句向量相似性(余弦相似度);Top-K精度 向量存储 推荐:FAISS(较为轻量),其余可自己选择合适的向量数据库 考核点:Top-K精度 RAG构建 推荐: 1.用户输入问题 2.对问题向量化 → 从知识库向量中检索 Top-k 相关片段 3.拼接上下文 + 问题 → 送入大语言模型生成回答 考核点:prompt模板构建;RAG关联度;连续对话能力 加分点:能够在返回答案中给出对应原文网址 UI构建 推荐:Github大量开源前端对话UI 考核点:UI设计美观度 如何使用魔搭平台免费实例# 下载 一个最简单且不会出错的大模型使用 云端部署(免费实例) 来运行你的 RAG 系统或大语言模型推理任务 之后用来连接我的小数据库,大概200条数据,来做高校网站爬虫与大模型问答系统 要求爬虫东北石油大学官网,爬的数据不少于170条,模型选择最简单的,数据库用SQLSEVER
最新发布
07-07
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值