自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 从0开始手撕大模型应用项目-智能学术系统-第四节-消息队列服务开发指南

Redis + Celery消息队列系统为Scholar-AI项目提供了强大的异步任务处理能力。通过合理的设计和优化,可以支持高并发、高可用的任务处理需求。核心优势:高性能:Redis内存存储,Celery多进程并发高可用:分布式架构,故障自动转移易扩展:水平扩展,动态调整资源易监控:完善的监控和日志系统易维护:成熟的生态,丰富的工具长时间运行的任务(PDF解析、LLM推理)高并发请求处理定时任务调度异步数据处理。

2025-10-05 19:56:59 914

原创 从0开始手撕大模型应用项目-为秋招人准备的项目-智能学术系统

通过多模态RAG技术、大语言模型和AI搜索引擎,为用户提供从文献管理到学术问答的全方位学术研究支持,让每一位研究者都能享受智能化、个性化的学术研究体验,加速科研创新进程。:LLM 、RAG 和多模态技术的突破为智能学术助手提供了技术基础。:传统搜索引擎依赖关键词匹配,难以理解学术查询的深层语义。:学术研究数字化进程加速,在线工具接受度提高。:用户越来越期待个性化、智能化的服务体验。:现有工具缺乏对用户研究背景和兴趣的理解。:研究者面临海量文献,缺乏有效的组织工具。

2025-10-05 19:24:44 887

原创 从0开始手撕大模型应用项目-智能学术系统-第二节-PDF文件解析开发指南

学术论文大多是PDF的格式,然而,PDF的设计初衷是确保文档的视觉一致性,而非内容的结构化存储,这给信息提取带来了巨大挑战。特别是当PDF文档中包含大量图表、复杂的LaTeX数学公式以及多栏布局时,使文本提取变得更加困难。尤其是数学公式,其结构和特殊符号(如希腊字母、积分符号、分式等)通常会被破坏或丢失,导致信息不完整。对于理工科的论文,公式又是极其重要的,图表和表格虽然以图像或矢量图形的形式存在于PDF中,但其内在的逻辑结构和数据关系难以被直接解析。

2025-10-04 18:00:31 387

原创 从0开始手撕大模型应用项目-智能学术系统-第二节-学术资源搜索开发指南

Web Search 模块是一个用于学术论文搜索的服务模块。它集成了 Google Scholar 搜索、网页内容抓取和 PDF 摘要提取功能,为 AI 搜索系统提供学术资源支持。# 从PDF文件提取摘要。

2025-10-03 20:14:00 160

原创 从0开始手撕大模型应用项目-智能学术系统-第一节-大模型调度服务开发指南

大模型调度服务开发指南摘要 本文介绍了如何开发大模型调度服务,主要内容包括: 核心概念:调度服务可实现不同场景调用最优模型(如GPT回答、Qwen理解图片),解决直接调用模型导致的代码混乱问题 设计模式应用: 策略模式:定义统一接口,各模型独立实现 工厂模式:集中管理模型实例创建 架构设计:通过分层设计(应用层→调度层→模型层)实现: 统一调用接口 动态模型切换 异常处理机制 扩展新模型只需新增Provider类 关键功能:支持单/多轮对话、流式输出、模型管理、错误重试等

2025-10-01 13:26:03 1013

原创 智能学术助手中的个性化方案

个性化LLM交互- 根据用户画像动态调整AI助手的人设、说话方式,根据用户水平调整内容难易程度和表达方式个性化论文推荐- 基于用户历史记录对检索结果进行智能重排序。

2025-10-01 10:44:24 841

原创 智能问答系统中的记忆存储方案

Scholar AI记忆存储系统设计方案摘要 该系统是学术研究辅助平台的核心基础设施,采用多层级技术架构实现智能化记忆管理。系统设计包含五大记忆类型:事件记忆(记录用户交互行为)、语义记忆(存储学术概念)、工作记忆(维护会话上下文)、用户记忆(个性化画像)和知识记忆(文献库管理)。技术选型采用Milvus向量数据库、PostgreSQL关系库、Redis缓存等组件,支持毫秒级检索和PB级数据扩展。系统通过结构化数据模型(如对话事件表、概念图谱)和混合存储策略(主存+索引+缓存)实现高效记忆管理,为学术研究提

2025-09-30 22:07:52 922

原创 多模态RAG中的检索方案

文章摘要:多模态搜索技术在智能学术助手中的应用 本文探讨了智能学术助手中多模态搜索技术的实现方案。针对学术论文的复杂内容(文本、图表、公式等),分析了传统文本检索的局限性,提出基于多模态嵌入的统一解决方案。重点介绍了采用VLM模型提取视觉信息、Milvus向量数据库存储与检索的技术架构,详细设计了支持多模态内容的两级数据模型(文档元信息+内容块)。通过文本和图像双向量字段的协同检索,实现了跨模态语义搜索,解决了学术资料检索中的模态异构性和语义鸿沟问题,为智能问答系统提供了更丰富的知识呈现方式。

2025-09-30 20:50:21 901

原创 RAG系统中的pdf解析方案

MinerU是一款开源PDF解析工具,专注于将复杂学术文档转换为结构化Markdown。它能精准提取文本、LaTeX公式、图表和表格等多模态内容,并保留原始布局。特别擅长处理含数学公式和多栏排版的论文,解决传统OCR工具在公式识别上的不足。通过结构化数据输出,为后续信息检索和问答系统提供高质量基础。该工具支持多种文档格式转换,在学术文档处理领域展现出高效性和准确性。

2025-09-29 20:36:49 375

原创 C++面试问题

C++ 面试常问问题

2025-06-18 22:30:31 1692

原创 【Linux性能分析监控面试常见问题】

通过将结构化的数据进行序列化(串行化),用于通讯协议、数据存储等领域的语言无关、平台无关、可扩展的序列化结构数据格式序列化:将数据结构或者对象转换成二进制串的过程反序列化:将二进制串还原成数据结构或者对象基于HTTP2 设计,可以向调用本地对象一样通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议通信协议:RPC是一种通信协议的泛称,而gRPC是一种基于HTTP/2的开源远程过程调用(RPC)框架。

2023-11-19 22:29:20 66

原创 【Webserver常见面试题】

利用IO多路复用模型,可以实现一个线程监视多个文件句柄;一旦某个文件句柄就绪,就能够通知到对应应用程序进行相应的读写操作;没有文件句柄就绪时就会阻塞应用程序,从而释放出CPU资源。常见的IO多路复用模型有三种:select模型:通过调用select函数监听多个IO事件,并使用fd_set数据结构来管理要监听的IO文件描述符集合。当有IO事件就绪时,select函数会返回,然后程序可以通过遍历文件描述符集合来处理就绪的IO事件。

2023-11-19 22:27:53 117

原创 【C++常见面试题】

多态的底层实现靠的就是虚函数表空类的实例化对象的大小是1,不是0,加入普通成员函数大小仍然为1,但是加入虚函数就变成4了(linux下是8加入虚函数之后,在编译期间, 编译器会向类中插入一个看不见的成员变量,叫做虚函数表指针,正好 4 字节,这 4 个字节占用的是类对象的内存空间**虚函数表指针 vptr 和虚函数表 vtbl 之间的关系:**类的实例化对象在内存中有一个 vptr,会指向类的虚函数表 vtbl,vtbl中的指针们,分别指向类的虚函数们。

2023-11-19 22:07:36 59

原创 【C++11新特性常见面试问题】

C++11 新特性常见面试问题

2023-11-18 22:25:26 38

原创 【数据结构常见面试题】

数据结构常见面试题

2023-11-18 21:20:45 107

原创 【计算机网络常见面试题】

计算机网络常见面试题

2023-11-18 21:15:23 42

原创 【操作系统常见面试题】

操作系统常见面试题

2023-11-18 20:47:36 967

原创 【设计模式常见面试问题】

设计模式常见面试题

2023-11-18 20:21:23 46

原创 【Cmake 常见面试问题】

Cmake

2023-11-18 20:05:22 358

原创 【Docker 常见面试题】

docker 常见面试题

2023-11-18 19:51:45 78

原创 【Git 常见面试题】

Git 常间面试题

2023-11-18 16:26:38 51

原创 算法面试问题

1. tensorflow 和 pytorch 的区别?2. tensorflow 和 pytorch 的使用流程3. 常见的优化器有哪些,tensorflow 和 pytorch 中怎么用?4. 常用的激活函数,特点和区别5. 说一下梯度消失和梯度爆炸,怎么解决?6. 讲一下 transformer 的特点7. 训练的时候模型和数据不在一张卡上,怎么办?8. 训练的详细过程?9. 常用的机器学习方法的原理10. SVM 和 逻辑回归的区别

2023-06-18 22:16:48 50 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除