大F的智能小课
不写水文,知行合一,喜欢就关注️
关于我:深耕 AI 领域十余年,大厂核心算法技术岗。分享AI算法干货、技术心得。
欢迎交流合作,一起探索技术的无限可能!
展开
-
5分钟生成论文文献综述框架(含中英文文献筛选技巧)| DeepSeek实战第1期—学术研究与论文写作
"导师让我两天内完成AI教育领域的文献综述,面对3万篇论文不知如何下手..."本文将用DeepSeek演示如何快速搭建文献综述框架,并精准筛选核心文献。"帮我找些AI教育的论文"原创 2025-03-25 00:20:35 · 36 阅读 · 0 评论 -
如何为推理大模型(DeepSeekR1、QwQ-32B)设计提示词:以旅行规划为例的实战指南
大家好,我是大 F,深耕AI算法十余年,互联网大厂技术岗。知行合一,不写水文,喜欢可关注,分享AI算法干货、技术心得。欢迎关注,一起探索技术的无限可能!原创 2025-03-20 08:45:00 · 42 阅读 · 0 评论 -
大模型时代下,研发岗位的“生存指南”:算法 vs 工程,谁先被冲击?
AI能帮你做80%的基础工作,剩下的20%才是你真正的价值所在。无论是工程岗还是算法岗,核心竞争力永远是“解决问题的能力”——而AI只是帮你更高效地实现它。原创 2025-03-18 20:10:18 · 637 阅读 · 0 评论 -
【提示词篇】DeepSeek提示词实战大全:提示词合集和使用技巧
大家好,我是大 F,深耕AI算法十余年,互联网大厂技术岗。知行合一,不写水文,喜欢可关注,分享AI算法干货、技术心得。更多文章可关注,一起探索技术的无限可能!原创 2025-03-18 08:30:00 · 597 阅读 · 0 评论 -
【评测篇】:Non-LLM 如何评估生成文本质量?评估指标详解与实战代码【Ragas 实战解析】
通过计算两个字符串之间的编辑距离(Levenshtein距离),衡量字符级相似性,无需依赖LLM。Similarity1−编辑距离s1s2maxlens1lens2\text{Similarity} = 1 - \frac{\text{编辑距离}(s_1, s_2)}{\max(\text{len}(s_1), \text{len}(s_2))}Similarity1−maxlens1lens2))编辑距离s1s2。原创 2025-03-20 07:45:00 · 34 阅读 · 0 评论 -
一文看懂:多模态大模型(LMMs)与大语言模型(LLMs)的比较
在人工智能领域,大模型的发展日新月异,如今主要分为两大类:大语言模型(Large Language Models,简称LLMs)和多模态大模型(Large Multimodal Models,简称LMMs)。LLMs专注于处理文本数据,在自然语言处理任务中表现出色;而LMMs则能够处理多种类型的数据,如文本、图像、音频和视频等,为更广泛的应用场景提供了可能。本文将从基础定义、输入数据、应用场景、训练过程等方面深入探讨两者的区别,帮助读者更好地理解这两种模型的特点和应用价值。原创 2025-03-19 07:45:00 · 51 阅读 · 0 评论 -
【数据集】一文横扫AI中文数据集(三)伦理对齐:TOCP、SWSR、CORGI-PM、CDIAL-BIAS等
TUMCC是首个用于暗语识别领域的中文语料库,总共收集了来自19,821个Telegram用户的28,749句子,涉及12个Telegram群组。经过清洗后,该数据集包含3,863句子,来自3,139个Telegram用户。:TOCP 数据集是一个大型的中文脏话数据集。该数据集中有16,450个句子,从两个主流社交媒体网站:PTT和Twitch收集。CDIAL-BIAS 是一个社会偏见对话数据集,用来评估一些公开可用的对话系统在社会偏见方面的表现。评测集规模包含3863个句子。原创 2025-03-18 09:00:00 · 37 阅读 · 0 评论 -
【数据集篇】一文横扫热门AI中文知识能力_数据集(二):WPLC、BiPaR、CommonMT、CMNLI 等
WPLC(Word Prediction with Long Context)WPLC数据集是一个用于评估预训练语言模型在给定长上下文下的词语预测的中文数据集。该数据集包含了超过69,000本小说中收集的段落,通过自动和手动选择策略确保目标词只能通过长上下文来进行预测。目标词的类型从普通名词到中文四字成语不等,并且与长上下文之间存在多样化的语言关系,包括词汇匹配、同义词、摘要和推理。评测集规模包含4827个问题(原本的评测集不包含答案,用dev代替)。评测指标使用Accuracy。原创 2025-03-16 23:36:12 · 41 阅读 · 0 评论 -
【数据集篇】一文横扫热门AI中文知识能力数据集(一):M3KE、GAOKAO-bench、CMMLU、Chinese_MMLU
中文自然语言推理数据集(A large-scale Chinese Nature language inference and Semantic similarity calculation Dataset) 数据及通过翻译加部分人工修正的方法,从英文原数据集生成,可以一定程度缓解中文自然语言推理和语义相似度计算数据集不够的问题。原创 2025-03-17 08:30:00 · 42 阅读 · 0 评论 -
OpenAI智能体初探: 使用 OpenAI Responses API 实现网络搜索与对话状态管理
OpenAI 的 Responses API 为开发者提供了一个强大且灵活的工具,用于构建复杂的、多模态的、工具增强的交互。通过状态管理、工具集成和多模态支持等功能,你可以更轻松地实现多轮对话、信息检索和内容生成等应用。希望本文的介绍和示例能够帮助你快速掌握 Responses API 的使用方法,并在实际项目中发挥其优势。原创 2025-03-13 00:52:04 · 230 阅读 · 0 评论 -
OpenAI智能体初探:使用 OpenAI Responses API 在 PDF 中实现检索增强生成(RAG)
大家好,我是大 F,深耕AI算法十余年,互联网大厂技术岗。知行合一,不写水文,喜欢可关注,分享AI算法干货、技术心得。欢迎关注,一起探索技术的无限可能!原创 2025-03-13 09:00:00 · 298 阅读 · 0 评论 -
从Manus爆红到OpenAI反击:AI Agent技术架构与实战解析
AI Agent(人工智能代理)是具备自主感知、决策和执行能力的智能系统。Profile 模块定义智能体的角色和目标,明确其在特定场景中的任务和职责。例如,一个客服智能体的 Profile 是解决用户问题,其目标是提高用户满意度。Memory 模块记录和存储智能体与环境交互过程中产生的信息,包括历史对话、用户偏好等,为后续决策提供依据。比如,对话系统中的 Memory 可以记住用户之前提到的内容,使对话更连贯。Planning 模块。原创 2025-03-13 00:33:17 · 258 阅读 · 0 评论 -
SPO(Self-Supervised Prompt Optimization)自我监督Prompt提示优化的全景指南
创建一个迭代模板文件,例如,其结构如下:yaml复制prompt: |...qa:...answer: |......answer: |...字段说明prompt:初始提示,用于引导模型生成输出。:期望的效果或输出特性,例如“生成更多逻辑思考”或“使用更幽默的语言”。count:生成提示的目标字数(可选)。qa:用于迭代的问答对,可以包含 3 个左右的问题。原创 2025-02-19 22:10:43 · 423 阅读 · 0 评论 -
DeepSeek破局启示录:一场算法优化对算力霸权的降维打击
DeepSeek的故事告诉我们:AI革命的下半场,不属于拥有最多GPU的玩家,而是属于那些。原创 2025-02-21 23:03:04 · 506 阅读 · 0 评论 -
【实战篇 】 AI 安全时代:SDL与大模型结合的“王炸组合”——技术落地与实战指南
明确要求高风险AI系统必须通过全生命周期安全管理认证。本文将基于行业权威研究和开源工具,探讨SDL(安全开发生命周期)与大模型结合的技术路径。,全球62%的企业在部署大模型时遭遇过安全事件(如数据泄露、模型滥用),而。联邦学习框架,支持差分隐私(案例:OpenMined医疗数据联合建模)安全护栏(Safety Guardrails)NIST AI 100-1报告(2023)代码审计、WAF(Web应用防火墙)动态滥用(如提示注入、数据泄露)静态漏洞(如缓冲区溢出)中国网信办(2024)原创 2025-02-19 00:03:46 · 1092 阅读 · 0 评论 -
【提示词 】或许是最全DeepSeek 提示词合集、使用技巧与代码实现全攻略【建议收藏】
DeepSeek 作为一款强大的 AI 大语言模型工具,凭借其高效、灵活的特点,受到了众多开发者和用户的青睐。本文将全面介绍 DeepSeek 的提示词合集、使用技巧以及代码实现方法,帮助读者更好地利用这一工具,提升工作效率和创造力。原创 2025-03-05 12:24:20 · 598 阅读 · 0 评论 -
【五万字长文】零基础通关玩转 Transformer 架构:解读从“人工智障“到“人工智能“的进化密码
编码器# 解码器# 源语言和目标语言的嵌入层# 输出层# 源语言和目标语言的嵌入# 编码器处理源语言嵌入# 解码器处理目标语言嵌入,并结合编码器的输出# 输出层得到最终结果sum。原创 2025-03-12 01:34:06 · 318 阅读 · 0 评论 -
【提示词】大模型实践:如何选择适合自己场景的Prompt框架?
通过这个例子,我们可以看到如何系统地测试和验证Prompt框架的效果,并根据评估结果进行优化,以提高模型在特定任务上的性能。以下是一个测试Prompt框架的例子,假设我们正在开发一个问答系统,用于回答有关历史事件的问题。具体例子可以多种多样,具体取决于任务的性质和领域。充分利用有限的样本有效地指导模型。原创 2024-04-08 18:27:36 · 1041 阅读 · 0 评论 -
RAG 常见分块策略全解析:从原理到代码实践(2025 深度版)
RAG 模型中的检索部分会从文档库中检索与用户查询相关的文本块,这些文本块将作为上下文输入到生成模型中。然而,生成模型(如大型语言模型,LLM)的上下文窗口是有限的,这意味着它能够处理的输入文本长度是有限制的。如果检索到的文本块过大,超出了这个限制,就无法完整地输入到生成模型中,从而可能导致生成的响应不准确或不完整。通过将文档分块,可以确保每个块的大小都在生成模型的上下文窗口范围内,从而使模型能够有效地处理和生成高质量的响应。:简单高效,计算成本低,适合格式规整的文本。:确保块内语义连贯,检索准确性高。原创 2025-03-11 00:27:46 · 131 阅读 · 0 评论 -
RAG 常见分块策略全解析:从原理到代码实践(2025 深度版)
然而,生成模型(如大型语言模型,LLM)的上下文窗口是有限的,这意味着它能够处理的输入文本长度是有限制的。如果检索到的文本块过大,超出了这个限制,就无法完整地输入到生成模型中,从而可能导致生成的响应不准确或不完整。通过将文档分块,可以确保每个块的大小都在生成模型的上下文窗口范围内,从而使模型能够有效地处理和生成高质量的响应。例如,在一个包含多个主题的长文档中,分块可以将不同主题的内容分割开来,使得检索系统能够针对特定主题进行更精确的检索。在检索增强生成(RAG)系统中,分块策略是决定系统性能的基石。原创 2025-03-10 23:54:58 · 160 阅读 · 0 评论 -
AI IDE三强争霸:深度拆解Windsurf、Cursor、 Trae中文生态「开发者视角」
技术维度核心AI引擎GPT-4 Turbo + 自研增量训练框架Claude 3.5 + GPT-4o 动态混合调度Claude 3.5 Sonnet 定制版上下文窗口128k tokens(支持跨文件索引)64k tokens(中文压缩优化)32k tokens(扩展至100k需Pro版)微调能力私有数据LoRA微调(需企业版)领域适配器(医疗/金融预训练包)仅支持提示词工程优化推理加速vLLM 动态批处理 + 量化推理TensorRT-LLM 8bit量化。原创 2025-03-09 10:30:00 · 359 阅读 · 0 评论 -
【Agent篇】AI Agent 搭建平台横向对比:Dify、阿里云百炼、Coze
随着生成式AI技术向行业场景加速渗透,低代码/零代码AI Agent开发平台成为企业智能化转型的核心工具。本文聚焦国内三大主流平台——Dify(苏州语灵)阿里云百炼字节Coze,从技术能力行业适配性商业化路径三大维度展开深度评测,为开发者与企业提供选型参考。三大平台在技术开放性行业适配性生态壁垒Dify代表开发者友好型工具,适合追求技术可控性的团队;阿里云百炼彰显大厂生态优势,成为传统企业智能化改造的“安全选择”;Coze则凭借零代码和流量红利,正在重塑社交场景的AI交互体验。未来竞争焦点将集中在。原创 2025-03-09 09:15:00 · 525 阅读 · 0 评论 -
5人3小时复刻Manus?开源OpenManus项目全解剖,我的DeepSeek股票报告这样诞生
但我发现是英文,且不太好看于是我让他再修改 :对刚才的 ppt 美化 一下,再换成中文这是新的脚本。原创 2025-03-08 00:15:08 · 1170 阅读 · 0 评论 -
Manus要邀请码?来试试 OpenManus:纯开源AI Agent 神器+简单三步上手实战指南
Manus(拉丁语"手脑并用")作为全球首款通用型AI Agent,其核心突破在于实现了从"被动响应"到"主动执行"的跨越。与传统AI助手不同,它通过多智能体架构在云端虚拟机中运行,能自主调用浏览器、代码编辑器等工具完成端到端任务交付。例如上传简历即可自动生成人才评估报告,甚至能完成股票数据分析等复杂工作流。该产品在GAIA基准测试中以78%的首次任务完成率刷新记录,单任务平均调用5.3个专业工具,综合性能超越OpenAI同类产品。原创 2025-03-07 23:58:03 · 1079 阅读 · 0 评论 -
【大模型篇】推理模型大作战(QwQ-32B vs DeepSeek-R1)
当我让QwQ-32B vs DeepSeek-R1 写一封未来自己的信大家更喜欢哪种风格?大规模强化学习(RL)潜力无限,能超越传统预训练和后训练方法提升模型性能。近期研究表明,强化学习可显著提高模型推理能力。例如,DeepSeek R1 整合冷启动数据与多阶段训练,实现先进性能,可进行深度思考与复杂推理。原创 2025-03-06 20:08:46 · 1141 阅读 · 0 评论 -
【评测篇】从指标维度解读 DeepSeek-R1的推理能力是如何一步一步提升的?-从R0到R1的推理能力跃迁之路
表6所示的实验结果表明,经过大规模强化学习训练的32B基础模型,其性能与QwQ-32B-Preview 【qwq-32b-preview 发布时间:2024年11月28日)不相上下。然而,从DeepSeek-R1蒸馏而来的DeepSeek-R1-Distill-Qwen-32B在所有基准测试中的性能都显著优于DeepSeek-R1-Zero-Qwen-32B。为了对比,我们回顾顺带贴一下,QwQ-32B-Preview 技术报告中使用的评测指标。1.3 R1-Zero:强化学习的突破尝试。原创 2025-03-07 09:30:00 · 40 阅读 · 0 评论 -
【大模型篇】万字长文从OpenAI到DeepSeek:大模型发展趋势及原理解读
大家好,我是大 F,深耕AI算法十余年,互联网大厂技术岗。分享AI算法干货、技术心得。欢迎关注,一起探索技术的无限可能!原创 2025-03-04 20:53:53 · 246 阅读 · 0 评论 -
【大模型篇 】 Grok-3 与 DeepSeek 的技术架构与性能分析
前者以超算资源驱动性能突破,后者通过算法优化实现低成本高效落地。短期内,DeepSeek 的开源生态和性价比优势更适用于广泛商业化;而 Grok-3 的技术突破或将推动科研和高端场景发展。未来,两者的竞争将加速 AI 从集中化向去中心化转型。原创 2025-02-21 22:58:35 · 1327 阅读 · 0 评论 -
【RAG 篇】万字长文:向量数据库选型指南 —— Milvus 与 FAISS/Pinecone/Weaviate 等工具深度对比
大家好,我是大 F,深耕AI算法十余年,互联网大厂技术岗。分享AI算法干货、技术心得。欢迎关注,一起探索技术的无限可能!原创 2025-03-05 10:30:00 · 238 阅读 · 0 评论 -
【微调篇】万字长文:监督微调(Supervised Fine-Tuning, SFT)技术全解析【从理论到实战】
大家好,我是大 F,深耕AI算法十余年,互联网大厂技术岗。分享AI算法干货、技术心得。欢迎关注,一起探索技术的无限可能!原创 2025-03-04 10:15:00 · 172 阅读 · 0 评论 -
【实操篇 RAG 】万字长文 | LlamaIndex:大语言模型私有化部署【实操指南】
在不修改LLM本体的前提下,实现外部数据与LLM的无缝交互。传统RAG方案常因索引选择不当导致效果下降。LlamaIndex通过。2023年,大语言模型(LLM)在通用领域展现了惊人能力,但在。原创 2025-02-21 23:22:36 · 967 阅读 · 0 评论 -
【数据集】多模态学习实战手册~20 余个常见任务及测试数据集
任务描述:从图像、视频或音频中生成摘要性的文本描述。应用场景:新闻摘要、视频内容总结等。主要使用的数据集:包含20万段视频和对应的描述句子,用于视频内容理解和描述。原创 2024-04-02 07:45:00 · 1170 阅读 · 0 评论 -
【评测篇】如何科学评估RAG项目的效果好坏?从检索到生成的指标体系全解析【附代码】
大家好,我是大 F,深耕AI算法十余年,互联网大厂技术岗。分享AI算法干货、技术心得。欢迎关注,一起探索技术的无限可能!原创 2025-03-03 00:00:56 · 200 阅读 · 0 评论 -
【大模型篇】阿里云 Qwen2.5-Max:超大规模 MoE 模型架构和性能评估
Qwen2.5-Max 作为阿里云通义千问团队在 MoE 架构领域的最新成果,凭借其超大规模的预训练数据和先进的技术架构,在多个基准测试中展现了卓越的性能。它不仅在技术上取得了显著进步,还为开发者和企业提供了强大的工具,支持智能客服、自动化办公、编程辅助等多种应用场景。随着后训练技术的不断进步和强化学习的深入应用,Qwen2.5-Max 有望在未来实现更高的性能和更广泛的应用。原创 2025-03-02 23:48:46 · 304 阅读 · 0 评论 -
【大模型篇】目前主流 AI 大模型体系全解析:架构、特点与应用
在自然语言处理(NLP)领域,大语言模型(LLMs)已经成为推动技术进步的核心力量。这些模型通过大规模预训练和微调,在文本生成、机器翻译、问答系统等任务中展现出卓越的性能。本文将详细介绍目前主流的开源大模型体系,包括它们的架构、特点以及应用场景,帮助大家更好地了解这些强大的工具。目前主流的大模型体系各具特色,GPT 系列以其强大的生成能力在文本生成领域占据优势;BERT 以其卓越的语义理解能力在自然语言理解任务中表现出色;XLNet 通过创新的自回归预训练方式,在文本建模和生成任务中展现出独特的优势;原创 2025-03-02 23:15:58 · 208 阅读 · 0 评论 -
LayoutLMv3:文档智能处理的多模态利器
LayoutLMv3 是微软开发的一个多模态预训练模型,专门用于文档智能处理(Document AI)。它通过统一的文本和图像遮蔽预训练方法,解决了传统多模态模型在文本和图像预训练目标不一致的问题。这种统一的架构和训练目标,使得 LayoutLMv3 能够高效地处理多种文档任务,无论是文本中心任务(如表格理解、收据理解)还是图像中心任务(如文档图像分类、文档布局分析)。LayoutLMv3 作为微软开源的多模态预训练模型,通过创新的预训练方法和统一的架构,为文档智能处理领域带来了新的突破。原创 2025-02-19 22:20:51 · 157 阅读 · 0 评论 -
一文读懂CompassRank榜单的评测指标【多模态学习实战手册】
CompassRank 是一个中立且全面的性能榜单,作为大模型评测体系 OpenCompass2.0 中各类榜单的承载平台。它覆盖多领域、多任务下的模型性能,并定期更新,以提供动态的行业洞察。CompassRank 保持中立性,不受任何商业利益干扰,并依托于 CompassKit 工具链体系中的各类评测手段,确保了其客观性。这个平台旨在帮助从业者理解技术深意,优化模型选择,并对大模型的技术创新提供坚实的技术支撑编辑。原创 2024-04-03 07:30:00 · 2053 阅读 · 0 评论 -
MMBench论文解读——如何评估基于指令微调的视觉语言模型的各项能力
MMBench,是一个针对大规模多模态模型的新型评估基准。随着视觉语言模型在感知和推理能力方面的显著进步,如何有效地评估这些模型成为了一个主要难题。传统基准如VQAv2和COCO Caption提供了定量性能测量,但在细粒度能力和鲁棒性评估指标方面存在不足。而像OwlEval这样的主观性基准虽然能够全面评价模型能力,但其可扩展性差且易受偏见影响。一是精心构建的超越现有同类基准的数据集,该数据集包括2,974个经过细致挑选的问题,覆盖了20种不同类型的细粒度技能;原创 2024-04-01 22:09:08 · 1797 阅读 · 0 评论 -
多模态大模型(LMMs)与大语言模型(LLMs)的比较
现在的大模型分为两大类:大语言模型(Large Language Models,简称LLMs)和多模态大模型(Large Multimodal Models,简称LMMs)。本文将从基础定义、输入数据、应用场景、训练过程这几方面讨论下两者的区别。LLMs (Large Language Models, 大型语言模型)- 深度学习的应用之一,是基于深度学习的大规模机器学习模型,通常由数十亿到数万亿个参数构成,专门设计用于处理自然语言处理任务。原创 2024-03-18 00:30:00 · 10150 阅读 · 0 评论 -
【理论篇】论文解读《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》
我们探索了生成思维链——一系列中间推理步骤——如何显著提高大型语言模型执行复杂推理的能力。特别是,我们展示了这种推理能力如何通过一种名为思维链提示的简单方法,自然地出现在足够大的语言模型中,其中在提示中提供了一些思维链演示作为范例。在三个大型语言模型上的实验表明,思维链提示提高了在各种算术、常识和符号推理任务上的性能。经验上的增益可能很显著。原创 2025-02-27 09:00:00 · 54 阅读 · 0 评论