自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大F子的智能小课

不写水文,知行合一~ 目前侧重于人工智能和大语言模型,分享技术干货,送给每一个关注我的人!

  • 博客(120)
  • 收藏
  • 关注

原创 复现Manus“上帝之手”:Cursor/Trae/Deepseek/Qwen2.5/等多个方法实测分析

投资的本质,是把当下的资源投入到未来,期望获得更多回报。</p></div><img src="comic2.png" alt="常见的投资形式"><p>常见的投资形式有股票、债券、房地产等。</p></div><img src="comic3.png" alt="投资的风险与收益"><p>投资伴随着风险,高收益往往伴随着高风险。

2025-03-25 09:15:00 142

原创 5分钟生成论文文献综述框架(含中英文文献筛选技巧)| DeepSeek实战第1期—学术研究与论文写作

"导师让我两天内完成AI教育领域的文献综述,面对3万篇论文不知如何下手..."本文将用DeepSeek演示如何快速搭建文献综述框架,并精准筛选核心文献。"帮我找些AI教育的论文"

2025-03-25 00:20:35 36

原创 如何为推理大模型(DeepSeekR1、QwQ-32B)设计提示词:以旅行规划为例的实战指南

大家好,我是大 F,深耕AI算法十余年,互联网大厂技术岗。知行合一,不写水文,喜欢可关注,分享AI算法干货、技术心得。欢迎关注,一起探索技术的无限可能!

2025-03-20 08:45:00 41

原创 【评测篇】:Non-LLM 如何评估生成文本质量?评估指标详解与实战代码【Ragas 实战解析】

通过计算两个字符串之间的编辑距离(Levenshtein距离),衡量字符级相似性,无需依赖LLM。Similarity1−编辑距离s1s2max⁡lens1lens2\text{Similarity} = 1 - \frac{\text{编辑距离}(s_1, s_2)}{\max(\text{len}(s_1), \text{len}(s_2))}Similarity1−maxlens1​lens2​))编辑距离s1​s2​​。

2025-03-20 07:45:00 34

原创 一文看懂:多模态大模型(LMMs)与大语言模型(LLMs)的比较

在人工智能领域,大模型的发展日新月异,如今主要分为两大类:大语言模型(Large Language Models,简称LLMs)和多模态大模型(Large Multimodal Models,简称LMMs)。LLMs专注于处理文本数据,在自然语言处理任务中表现出色;而LMMs则能够处理多种类型的数据,如文本、图像、音频和视频等,为更广泛的应用场景提供了可能。本文将从基础定义、输入数据、应用场景、训练过程等方面深入探讨两者的区别,帮助读者更好地理解这两种模型的特点和应用价值。

2025-03-19 07:45:00 51

原创 大模型时代下,研发岗位的“生存指南”:算法 vs 工程,谁先被冲击?

AI能帮你做80%的基础工作,剩下的20%才是你真正的价值所在。无论是工程岗还是算法岗,核心竞争力永远是“解决问题的能力”——而AI只是帮你更高效地实现它。

2025-03-18 20:10:18 637

原创 【数据集】一文横扫AI中文数据集(三)伦理对齐:TOCP、SWSR、CORGI-PM、CDIAL-BIAS等

TUMCC是首个用于暗语识别领域的中文语料库,总共收集了来自19,821个Telegram用户的28,749句子,涉及12个Telegram群组。经过清洗后,该数据集包含3,863句子,来自3,139个Telegram用户。:TOCP 数据集是一个大型的中文脏话数据集。该数据集中有16,450个句子,从两个主流社交媒体网站:PTT和Twitch收集。CDIAL-BIAS 是一个社会偏见对话数据集,用来评估一些公开可用的对话系统在社会偏见方面的表现。评测集规模包含3863个句子。

2025-03-18 09:00:00 37

原创 【提示词篇】DeepSeek提示词实战大全:提示词合集和使用技巧

大家好,我是大 F,深耕AI算法十余年,互联网大厂技术岗。知行合一,不写水文,喜欢可关注,分享AI算法干货、技术心得。更多文章可关注,一起探索技术的无限可能!

2025-03-18 08:30:00 597

原创 【数据集篇】一文横扫热门AI中文知识能力数据集(一):M3KE、GAOKAO-bench、CMMLU、Chinese_MMLU

中文自然语言推理数据集(A large-scale Chinese Nature language inference and Semantic similarity calculation Dataset) 数据及通过翻译加部分人工修正的方法,从英文原数据集生成,可以一定程度缓解中文自然语言推理和语义相似度计算数据集不够的问题。

2025-03-17 08:30:00 42

原创 【数据集篇】一文横扫热门AI中文知识能力_数据集(二):WPLC、BiPaR、CommonMT、CMNLI 等

WPLC(Word Prediction with Long Context)WPLC数据集是一个用于评估预训练语言模型在给定长上下文下的词语预测的中文数据集。该数据集包含了超过69,000本小说中收集的段落,通过自动和手动选择策略确保目标词只能通过长上下文来进行预测。目标词的类型从普通名词到中文四字成语不等,并且与长上下文之间存在多样化的语言关系,包括词汇匹配、同义词、摘要和推理。评测集规模包含4827个问题(原本的评测集不包含答案,用dev代替)。评测指标使用Accuracy。

2025-03-16 23:36:12 41

原创 OpenAI智能体初探:使用 OpenAI Responses API 在 PDF 中实现检索增强生成(RAG)

大家好,我是大 F,深耕AI算法十余年,互联网大厂技术岗。知行合一,不写水文,喜欢可关注,分享AI算法干货、技术心得。欢迎关注,一起探索技术的无限可能!

2025-03-13 09:00:00 298

原创 OpenAI智能体初探: 使用 OpenAI Responses API 实现网络搜索与对话状态管理

OpenAI 的 Responses API 为开发者提供了一个强大且灵活的工具,用于构建复杂的、多模态的、工具增强的交互。通过状态管理、工具集成和多模态支持等功能,你可以更轻松地实现多轮对话、信息检索和内容生成等应用。希望本文的介绍和示例能够帮助你快速掌握 Responses API 的使用方法,并在实际项目中发挥其优势。

2025-03-13 00:52:04 229

原创 从Manus爆红到OpenAI反击:AI Agent技术架构与实战解析

AI Agent(人工智能代理)是具备自主感知、决策和执行能力的智能系统。Profile 模块定义智能体的角色和目标,明确其在特定场景中的任务和职责。例如,一个客服智能体的 Profile 是解决用户问题,其目标是提高用户满意度。Memory 模块记录和存储智能体与环境交互过程中产生的信息,包括历史对话、用户偏好等,为后续决策提供依据。比如,对话系统中的 Memory 可以记住用户之前提到的内容,使对话更连贯。Planning 模块。

2025-03-13 00:33:17 258

原创 【五万字长文】零基础通关玩转 Transformer 架构:解读从“人工智障“到“人工智能“的进化密码

编码器# 解码器# 源语言和目标语言的嵌入层# 输出层# 源语言和目标语言的嵌入# 编码器处理源语言嵌入# 解码器处理目标语言嵌入,并结合编码器的输出# 输出层得到最终结果sum。

2025-03-12 01:34:06 317

原创 RAG 常见分块策略全解析:从原理到代码实践(2025 深度版)

RAG 模型中的检索部分会从文档库中检索与用户查询相关的文本块,这些文本块将作为上下文输入到生成模型中。然而,生成模型(如大型语言模型,LLM)的上下文窗口是有限的,这意味着它能够处理的输入文本长度是有限制的。如果检索到的文本块过大,超出了这个限制,就无法完整地输入到生成模型中,从而可能导致生成的响应不准确或不完整。通过将文档分块,可以确保每个块的大小都在生成模型的上下文窗口范围内,从而使模型能够有效地处理和生成高质量的响应。:简单高效,计算成本低,适合格式规整的文本。:确保块内语义连贯,检索准确性高。

2025-03-11 00:27:46 129

原创 RAG 常见分块策略全解析:从原理到代码实践(2025 深度版)

然而,生成模型(如大型语言模型,LLM)的上下文窗口是有限的,这意味着它能够处理的输入文本长度是有限制的。如果检索到的文本块过大,超出了这个限制,就无法完整地输入到生成模型中,从而可能导致生成的响应不准确或不完整。通过将文档分块,可以确保每个块的大小都在生成模型的上下文窗口范围内,从而使模型能够有效地处理和生成高质量的响应。例如,在一个包含多个主题的长文档中,分块可以将不同主题的内容分割开来,使得检索系统能够针对特定主题进行更精确的检索。在检索增强生成(RAG)系统中,分块策略是决定系统性能的基石。

2025-03-10 23:54:58 160

转载 多模态大模型 Qwen2.5-VL 指南来啦,手把手带你玩转视觉理解模型

大家好,我是大 F,深耕AI算法十余年,互联网大厂技术岗。知行合一,不写水文,喜欢可关注,分享AI算法干货、技术心得。更多文章可关注,一起探索技术的无限可能!2025-02-05,Qwen团队发布了一系列展示 Qwen2.5-VL 用例的Notebook,包含本地模型和 API 的使用。期望这些示例能够帮助开发者和用户更全面地了解 Qwen2.5-VL 的强大视觉理解功能,并激发更多创新的应用场景。

2025-03-10 23:11:59 157

原创 AI IDE三强争霸:深度拆解Windsurf、Cursor、 Trae中文生态「开发者视角」

技术维度核心AI引擎GPT-4 Turbo + 自研增量训练框架Claude 3.5 + GPT-4o 动态混合调度Claude 3.5 Sonnet 定制版上下文窗口128k tokens(支持跨文件索引)64k tokens(中文压缩优化)32k tokens(扩展至100k需Pro版)微调能力私有数据LoRA微调(需企业版)领域适配器(医疗/金融预训练包)仅支持提示词工程优化推理加速vLLM 动态批处理 + 量化推理TensorRT-LLM 8bit量化。

2025-03-09 10:30:00 358

原创 【Agent篇】AI Agent 搭建平台横向对比:Dify、阿里云百炼、Coze

随着生成式AI技术向行业场景加速渗透,低代码/零代码AI Agent开发平台成为企业智能化转型的核心工具。本文聚焦国内三大主流平台——Dify(苏州语灵)阿里云百炼字节Coze,从技术能力行业适配性商业化路径三大维度展开深度评测,为开发者与企业提供选型参考。三大平台在技术开放性行业适配性生态壁垒Dify代表开发者友好型工具,适合追求技术可控性的团队;阿里云百炼彰显大厂生态优势,成为传统企业智能化改造的“安全选择”;Coze则凭借零代码和流量红利,正在重塑社交场景的AI交互体验。未来竞争焦点将集中在。

2025-03-09 09:15:00 524

原创 5人3小时复刻Manus?开源OpenManus项目全解剖,我的DeepSeek股票报告这样诞生

但我发现是英文,且不太好看于是我让他再修改 :对刚才的 ppt 美化 一下,再换成中文这是新的脚本。

2025-03-08 00:15:08 1170

原创 Manus要邀请码?来试试 OpenManus:纯开源AI Agent 神器+简单三步上手实战指南

Manus(拉丁语"手脑并用")作为全球首款通用型AI Agent,其核心突破在于实现了从"被动响应"到"主动执行"的跨越。与传统AI助手不同,它通过多智能体架构在云端虚拟机中运行,能自主调用浏览器、代码编辑器等工具完成端到端任务交付。例如上传简历即可自动生成人才评估报告,甚至能完成股票数据分析等复杂工作流。该产品在GAIA基准测试中以78%的首次任务完成率刷新记录,单任务平均调用5.3个专业工具,综合性能超越OpenAI同类产品。

2025-03-07 23:58:03 1077

原创 【评测篇】从指标维度解读 DeepSeek-R1的推理能力是如何一步一步提升的?-从R0到R1的推理能力跃迁之路

表6所示的实验结果表明,经过大规模强化学习训练的32B基础模型,其性能与QwQ-32B-Preview 【qwq-32b-preview 发布时间:2024年11月28日)不相上下。然而,从DeepSeek-R1蒸馏而来的DeepSeek-R1-Distill-Qwen-32B在所有基准测试中的性能都显著优于DeepSeek-R1-Zero-Qwen-32B。为了对比,我们回顾顺带贴一下,QwQ-32B-Preview 技术报告中使用的评测指标。1.3 R1-Zero:强化学习的突破尝试。

2025-03-07 09:30:00 40

原创 【大模型篇】推理模型大作战(QwQ-32B vs DeepSeek-R1)

当我让QwQ-32B vs DeepSeek-R1 写一封未来自己的信大家更喜欢哪种风格?大规模强化学习(RL)潜力无限,能超越传统预训练和后训练方法提升模型性能。近期研究表明,强化学习可显著提高模型推理能力。例如,DeepSeek R1 整合冷启动数据与多阶段训练,实现先进性能,可进行深度思考与复杂推理。

2025-03-06 20:08:46 1140

原创 【数据集篇 】 多模态大模型 :65 个测试常用基准数据集+ 涵盖13个任务

长期单对象跟踪(long-term single object tracking)。支持中文**: 是,包含联合国六种官方语言的平行语料。

2025-03-05 12:27:44 1421

原创 【提示词 】或许是最全DeepSeek 提示词合集、使用技巧与代码实现全攻略【建议收藏】

DeepSeek 作为一款强大的 AI 大语言模型工具,凭借其高效、灵活的特点,受到了众多开发者和用户的青睐。本文将全面介绍 DeepSeek 的提示词合集、使用技巧以及代码实现方法,帮助读者更好地利用这一工具,提升工作效率和创造力。

2025-03-05 12:24:20 596

原创 【RAG 篇】万字长文:向量数据库选型指南 —— Milvus 与 FAISS/Pinecone/Weaviate 等工具深度对比

大家好,我是大 F,深耕AI算法十余年,互联网大厂技术岗。分享AI算法干货、技术心得。欢迎关注,一起探索技术的无限可能!

2025-03-05 10:30:00 236

原创 【大模型篇】万字长文从OpenAI到DeepSeek:大模型发展趋势及原理解读

大家好,我是大 F,深耕AI算法十余年,互联网大厂技术岗。分享AI算法干货、技术心得。欢迎关注,一起探索技术的无限可能!

2025-03-04 20:53:53 246

原创 【微调篇】万字长文:监督微调(Supervised Fine-Tuning, SFT)技术全解析【从理论到实战】

大家好,我是大 F,深耕AI算法十余年,互联网大厂技术岗。分享AI算法干货、技术心得。欢迎关注,一起探索技术的无限可能!

2025-03-04 10:15:00 172

原创 【评测篇】如何科学评估RAG项目的效果好坏?从检索到生成的指标体系全解析【附代码】

大家好,我是大 F,深耕AI算法十余年,互联网大厂技术岗。分享AI算法干货、技术心得。欢迎关注,一起探索技术的无限可能!

2025-03-03 00:00:56 200

原创 【大模型篇】阿里云 Qwen2.5-Max:超大规模 MoE 模型架构和性能评估

Qwen2.5-Max 作为阿里云通义千问团队在 MoE 架构领域的最新成果,凭借其超大规模的预训练数据和先进的技术架构,在多个基准测试中展现了卓越的性能。它不仅在技术上取得了显著进步,还为开发者和企业提供了强大的工具,支持智能客服、自动化办公、编程辅助等多种应用场景。随着后训练技术的不断进步和强化学习的深入应用,Qwen2.5-Max 有望在未来实现更高的性能和更广泛的应用。

2025-03-02 23:48:46 304

原创 【大模型篇】目前主流 AI 大模型体系全解析:架构、特点与应用

在自然语言处理(NLP)领域,大语言模型(LLMs)已经成为推动技术进步的核心力量。这些模型通过大规模预训练和微调,在文本生成、机器翻译、问答系统等任务中展现出卓越的性能。本文将详细介绍目前主流的开源大模型体系,包括它们的架构、特点以及应用场景,帮助大家更好地了解这些强大的工具。目前主流的大模型体系各具特色,GPT 系列以其强大的生成能力在文本生成领域占据优势;BERT 以其卓越的语义理解能力在自然语言理解任务中表现出色;XLNet 通过创新的自回归预训练方式,在文本建模和生成任务中展现出独特的优势;

2025-03-02 23:15:58 208

原创 【理论篇】论文解读《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》

我们探索了生成思维链——一系列中间推理步骤——如何显著提高大型语言模型执行复杂推理的能力。特别是,我们展示了这种推理能力如何通过一种名为思维链提示的简单方法,自然地出现在足够大的语言模型中,其中在提示中提供了一些思维链演示作为范例。在三个大型语言模型上的实验表明,思维链提示提高了在各种算术、常识和符号推理任务上的性能。经验上的增益可能很显著。

2025-02-27 09:00:00 54

原创 【评测篇】如何评估 LLM:大型语言模型评估方法全解析与综述

随着ChatGPT、GPT-4等大型语言模型(LLMs)的爆发式发展,如何科学评估模型性能成为学术界和工业界的核心议题。论文《A Survey on Evaluation of Large Language Models》系统梳理了LLMs评估的框架与方法。三个层面深度解读其核心观点,并深入扩展技术实现细节与前沿方法,为开发者提供可落地的参考方案。论文提出LLMs评估需围绕。

2025-02-26 22:58:00 252

原创 强化学习技术全面解析:从原理到实践中的15个关键问题

强化学习通过智能体与环境的交互学习最优策略,在复杂决策任务中展现出巨大潜力。开发者需深入理解MDP框架,掌握值函数与策略优化方法,并结合实际问题设计奖励函数、选择合适算法。未来,随着离线学习、多智能体等技术的发展,强化学习将在更多领域实现落地应用。交互,以最大化累积奖励为目标的学习方法。其核心是“试错学习”:智能体根据环境反馈调整策略,无需预先标注数据。马尔可夫决策过程是强化学习的数学框架,描述智能体与环境的交互过程,假设当前状态包含所有历史信息(马尔可夫性)。:表格法,适用于小型离散状态空间。

2025-02-26 08:00:00 232

原创 Transformer技术全面解析:从原理到实践中的20个关键问题

Transformer彻底改变了深度学习领域,其灵活性和扩展性使其在NLP、CV、语音等多个方向持续突破。未来,随着轻量化、多模态和自动化技术的发展,Transformer将更广泛地赋能工业界与学术界。开发者需紧跟技术前沿,结合实际需求,选择最优解决方案。在翻译长句子时,Transformer能直接捕捉句首和句尾的关系,而RNN可能因梯度消失/爆炸丢失信息。的深度学习模型架构,由Vaswani等人在2017年提出,最初用于机器翻译任务。Transformer是一种基于。

2025-02-25 08:30:00 154

原创 为什么在提示词中添加“Let’s think step step”能提升大模型效果?

关键区别方法核心机制是否需要示例论文来源添加“Let’s think step by step”否提供少样本推理示例是先抽象后推理(两步法)否1.提示词工程(Promptengineeri2.10月11日讯,DeepMind另辟蹊径,3.零犀科技|后退提示Step4.【论文精读】Chain-of5.大模型思维链论文《Chain-of-ThoughtPromptingElicitsReasoning…6.经典论文详解:思维链提示引发大型语言模型中的推理能力。

2025-02-25 07:15:00 79

原创 【实操篇RAG 】快速上手 Unstructured:安装、Docker部署及PDF文档解析示例

Unstructured 是一个强大的 Python 库,专注于从非结构化数据中提取和预处理文本信息,广泛应用于 PDF、Word 文档、HTML 等多种格式的文件处理。其核心功能包括分区、清理、暂存和分块,能够将复杂的非结构化文档转换为结构化输出,为后续的自然语言处理任务提供高质量的数据支持。

2025-02-24 23:30:00 894

原创 RAG技术全面解析:从原理到实践中的20个关键问题

RAG通过检索与生成的有效结合,为大模型落地提供了实用路径。未来随着多模态技术和自动化评估的发展,RAG将在更多领域展现其价值。→ LLM生成答案:“根据论文《RAG-Survey:…是一种结合检索技术与生成模型的技术。→ Query改写为“减少大语言模型的幻觉方法”→ 文本检索:产品描述中的“聚酯纤维+氨纶”;→ 图片检索:识别SKU对应的“红色连衣裙”;→ 表格检索:关联库存表格中的材质详情。用户提问:“如何降低LLM的幻觉?用户问:“红色连衣裙的材质是什么?→ Rerank筛选Top 3。

2025-02-24 07:15:00 618

原创 实操版:手把手教你搭建RAG及Embedding如何选择?(含完整代码)

建议选择高纤维低脂肪的燕麦牛奶,这是健康的减肥选择。避免高热量食物如油条。选择适合的模型,才能让AI准确找到"正确答案库"!使用sentence-transformers。假设用户提问:“早餐怎么吃能减肥?选all-mpnet-base。选BGE-small。选BGE-large。

2025-02-23 08:15:00 53

原创 程序员必备【10 倍效率】大模型+PlantUML时序图高效绘制技巧

PlantUML是一款基于文本描述生成UML图的开源工具,支持时序图、类图、流程图等13种图表类型。代码化绘图:用类编程语法描述图表,易维护、可版本控制跨平台协作:文本格式兼容Git,团队协作无压力大模型友好:自然语言转PlantUML代码,效率提升10倍👉典型应用场景系统架构设计文档API接口交互流程代码逻辑可视化PlantUML + 大模型 = 降维打击新手:5分钟生成专业图表老手:通过代码精准控制样式团队:标准化设计文档格式。

2025-02-22 09:15:00 485

一文读懂DeepSeek-大模型行业专题报告

deepseek 系列解读和行业报告

2025-03-05

2023年AI大模型应用研究报告:AI、AGI、大模型、通用大模型、行业大模型

内容概要:本文由头豹研究院发布,主要探讨2023年中国AI大模型市场的现状、核心技术及其未来发展方向,重点关注AI大模型在国内各大行业的应用案例和发展潜力。报告详细梳理了AI大模型在金融、泛消费、能源电力、制造等重点行业的应用场景,强调了不同行业的数据要求和安全顾虑。文中特别指出科技型企业如商汤科技、度小满、滴普科技和互联网云厂商百度、腾讯、阿里、华为等在中国通用大模型市场的主导地位,并展示了这些企业在AI基础设施和行业应用上的成就。报告最后介绍了未来AI大模型的关键发展方向,如多模态能力、行业垂直应用和MaaS(模型即服务)商业模式的兴起。 适合人群:对AI大模型感兴趣的科技从业者、投资者、研究人员以及关注AI行业发展趋势的企业管理者。 使用场景及目标:①为投资者提供最新的行业动向及投资机会指引;②协助企业管理者评估AI技术在各自行业内的可行性;③为研究人员提供前沿技术和应用实例参考。 阅读建议:鉴于本文覆盖了多个领域的具体案例,读者应着重关注感兴趣行业的大模型应用场景及相关公司的技术实现细节。通过结合实际应用场景,读者能够更深刻地理解AI大模型在各行业的落地挑战和解决方案。同时,报

2025-03-05

2021-2022全球计算力报告

大纲 一、引言 新冠疫情加速全球数字化进程,数字经济与实体经济加速融合 数字经济成为全球经济复苏和增长的主要驱动力 算力作为数字经济的核心生产力,对经济发展具有重要作用 二、全球计算力指数评估结果 美国和中国处于领跑者位置,其他国家被划分为追赶者和起步者 各国计算力水平整体提升,中国增幅最大 AI算力支出占比持续提升,中国AI算力发展领先全球 三、行业计算力发展水平评估 互联网行业计算力水平全球领先,金融业次之 疫情促进金融机构加大智能化建设投入,计算力水平提升 四、计算力的经济影响 计算力指数与GDP和数字经济发展正相关 算力对经济增长具有长期拉动作用 算力与传统资本形成互补和协同效应 五、计算力的社会价值 算力建设助力疫苗和药物开发,提高效率 绿色算力保障社会可持续发展 算力促进人与自然和谐共生 六、行动建议 加强算力网络顶层设计,引导多元资本投入 加快算力相关人才培养和储备 加强算力领域的国际合作和共享发展

2024-03-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除