自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(66)
  • 收藏
  • 关注

原创 《Python 应用机器学习:代码实战指南》笔记1 机器学习入门指南 | 手把手教你从零掌握实战Python技巧

机器学习可以理解为一种让计算机从数据中自动“学习”规律的技术,而不是靠程序员一步步编码规则。与传统编程不同,机器学习让模型在大量数据中不断调整,最后能对新情况做出预测或决策。机器学习的核心任务是从数据中找到可以泛化的规律训练和调参需要明确目标与评估指标统计学和数据分析是机器学习的理论基础模型表现不仅取决于算法,还取决于数据质量防止过拟合、提高泛化能力是专业建模的必备技能如果你现在只会复制粘贴代码而不理解其背后的含义,那你学到的其实只是表面知识。

2025-12-29 18:30:00 561

原创 阅读《AI Engineering》笔记28 如果大模型真的“什么都懂”,为什么还需要 RAG?

给大模型构造上下文,就像给传统机器学习做特征工程。目的完全一致:把“最有用的信息”,在最合适的时机,交给模型。未来的模型,也许会内置更聪明的检索和注意力机制。“只用相关信息,而不是用全部信息”,会长期存在。而 RAG,只是这个思想在当前阶段,最工程友好的实现方式。

2025-12-29 06:30:00 308

原创 阅读《AI Engineering》笔记27 当大模型开始“背答案”:一次被低估的数据泄露风险全景解析

只要你的系统足够“有用”,就一定存在被滥用的可能。攻击成本是否高到不值得。如果你正在:做大模型应用做企业知识库做 AI + 核心业务这类风险,迟早会成为你绕不开的工程问题。

2025-12-28 06:30:00 278

原创 《Prompt Engineering白皮书》笔记11 输入方式才是终极武器

说句扎心的实话:很多人用大模型一年了,效果却还停留在“能用,但不好用”的阶段。不是模型不行,而是——今天这篇文章,我把非常多开发者容易忽略、却极其关键的几个点,一次讲透。

2025-12-27 18:30:00 554

原创 阅读《AI Engineering》笔记26 一不小心,你的 AI 应用就被“攻破”了:Prompt 攻击全景解析与防御思路

如果你的 AI 应用:接入了真实数据拥有工具权限面向真实用户上线第一天就该考虑的事。AI 安全,本质上和网络安全一样:永远是一场猫鼠游戏。你可以忽视它,但攻击者不会。

2025-12-27 06:30:00 628

原创 阅读《AI Engineering》笔记25 给模型多一点思考时间:一篇工程师看得懂、用得上的 Prompt Engineering 实战指南

别让模型直接给答案,让它先走完推理过程。最简单、也是最有效的做法,就是在 Prompt 里加一句:👉「请一步一步思考」👉「请解释你的决策过程」别小看这一句。Wei 等人在 2022 年的论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中已经证明:不同规模的模型(LaMDA / GPT-3 / PaLM)在数学、逻辑、多步推理任务中只要启用 CoT,准确率都会显著提升。更重要的是——

2025-12-26 06:30:00 887

原创 《Prompt Engineering白皮书》笔记10 5个让 LLM 输出质量暴涨的提示词技巧

不会用 Prompt 的人,是在“求模型施舍”;会写 Prompt 的人,是在“指挥一个超级员工”。如果你愿意,我可以帮你下一步:✅ 把这篇文转成「更适合公众号的版本」✅ 或帮你做成「Prompt 写作模板合集」你只要回复一句:继续优化。

2025-12-25 18:30:00 642

原创 阅读《AI Engineering》笔记24 Prompt Engineering 最佳实践:我踩过无数坑后,总结出这 6 条真正有用的经验

Prompt Engineering 不是写咒语,而是在做「产品级沟通设计」。当你开始把 Prompt 当成:需求文档交互协议决策边界你会发现,模型突然就“听话”了。

2025-12-25 06:30:00 839

原创 阅读《AI Engineering》笔记23 一文讲透 Prompt:从入门到实战,新手也能立刻用起来

Prompt,就是你给模型下达的“任务说明书”。它可以简单到一句问题:“谁发明了数字 0?也可以复杂到一整套指令:让模型调研你的竞品从 0 到 1 搭建一个网站分析一份真实业务数据模型能做什么,很大程度上取决于你“怎么问”。找到能激活模型正确能力的那段指令。就像 François Chollet 说的:一个大模型,更像是一个“程序库”,Prompt 的作用,是选中你想运行的那个程序。如果你记住这一点,Prompt 这件事,就已经成功了一半。

2025-12-24 06:30:00 624

原创 阅读《AI Engineering》笔记22 为什么你的 AI 应用总“踩坑”?

比如你做一个客服机器人:❓用户问“最近美国大选怎么样?✔机器人应该回答吗?✘不应该回答吗?➡你必须在指南里事先定义。LinkedIn 在落地 Job Assessment AI 时发现:“正确≠好”例如——“你非常不适合这个岗位。正确,但非常糟糕。告诉你哪里不匹配告诉你怎么提升这就是评估标准中必须体现的“价值输出”。一个 AI 应用的成功,不取决于它用的是 GPT-4 还是 GPT-5,也不取决于提示词写得多漂亮。而取决于:你能不能区分好和坏你能不能找到问题在哪里。

2025-12-23 06:30:00 1412

原创 阅读《AI Engineering》笔记21 当我们在追榜 AI 模型时,我们究竟在追什么?

过去两年,做 AI 的工程师们几乎每天都能看到类似的新闻:但你是否想过:这些排行榜,到底靠不靠谱?我们看到的“超越”,真的有意义吗?今天,带你走进“AI Benchmark 排行榜背后的世界”,看看模型评测为何越来越像是一场看似公平、实际混乱的马拉松。AI 发展太快,每个月都冒出新能力。于是全球研究者开始大量造 Benchmark 来测试模型:Google 的 BIG-bench:214 个测试EleutherAI 的 lm-evaluation-harness:400+OpenAI evals:50

2025-12-22 06:30:00 626

原创 阅读《AI Engineering》笔记20 开源 vs 商业模型:性能差距正在缩小,但永远追不上?

从 MMLU 的趋势图看,开源与商业的差距这两年确实在迅速缩小。这让很多工程师、创业者兴奋:是不是有一天,最强的模型不再是某家大厂的私有黑盒,而是任何人都能下载的开源模型?

2025-12-21 06:30:00 825

原创 《Prompt Engineering白皮书》笔记09 一个重命名文件的 Python 小脚本,竟然踩出这么多坑?

一个看似简单的文件重命名脚本,其实暗藏很多坑:✅ 错误函数名✅ 拼写错误✅ 扩展名处理不当✅ 缺乏异常处理而合理利用大模型,不只是“修 bug”,更是学习编码规范和工程思维的捷径。

2025-12-20 18:30:00 297

原创 阅读《AI Engineering》笔记19 为什么“选模型”永远是最难的那一步?——一文带你搞懂 LLM 模型选择的本质

在大模型满天飞的时代,我们似乎每天都在做同一件事:你可能以为自己是在选择模型,其实你是在选择未来半年(甚至一年)应用的天花板。但多数人不知道:今天这篇文章,我会以工程师视角,用故事化的方式,带你拆解大模型选型的实战流程,让你知道为什么明明 GPT-4、Claude、Llama、Qwen 一大堆,真正适合你的,通常只有一两个。

2025-12-20 06:30:00 237

原创 阅读《AI Engineering》笔记18 为什么你的大模型“听不懂人话”?

Instruction-following 是所有大模型能力的“起点能力”。大模型不怕不够强,怕的是不听话、不稳定、格式不对、风格跑偏。想让模型可靠可控,你必须:理解它为何不听指令使用正确的评测方法构建自己的业务基准优化提示、角色和格式控制成本与延迟如果你正在做 AI 应用,这篇文章的内容会直接提升模型在你业务中的可控性与产出质量。

2025-12-19 06:30:00 231

原创 阅读《AI Engineering》笔记17 大模型为什么会“胡说八道”

如果把以前的 NLG 当作“写得像人”,写得像人 + 不能乱编 + 不能说坏话 + 不能有偏见随着模型越来越强,未来的核心竞争力将不再是能不能生成,而是谁能更好地评估生成。如果你正在做 LLM 产品、AIGC 工具、企业知识库问答系统——这篇文章里的指标体系,是你必须掌握的基础。

2025-12-18 06:30:00 910

原创 阅读《AI Engineering》笔记16 为什么你的 AI 应用上线后没人知道有没有效果?

你怎么知道这个应用“成功”?企业真正需要的不是一个“看上去很酷的模型”,而是一个结果可度量、可复现、可优化的业务组件。如果我们能:在应用开发前定义好完整评估体系构建可靠的评估流水线持续监控模型在真实世界的表现那么 AI 的落地速度将大幅提升。Evaluation-Driven Development,不是技术,是方法论。也是未来 AI 工程最重要的基石之一。

2025-12-17 06:30:00 2267

原创 《Prompt Engineering白皮书》笔记08 我用 Gemini 10 分钟写完脚本,100 个文件自动改名

👉 心里还在安慰自己:“写脚本太麻烦了,还是手动快一点…手动 + 右键 + 重命名 + CtrlV(绝望循环)👉 几百个文件,Ctrl+C、Ctrl+V 到手抽筋。直接“写一个 Prompt 交给 Gemini”。原来不是我不会写脚本,是我不会“问 AI”。直到我把这件事交给了 Gemini。它直接给了我一段完整可用代码(而且。👉 看了 10 分钟依然怀疑人生。❌ 以为 AI 是来“写代码”的。✔️ 结果:文件全部成功变成。👉 一个文件一个文件手动改名。直接变成一个可扩展的小工具。

2025-12-16 18:30:00 351

原创 阅读《AI Engineering》笔记15 真正高手都是用“对战”来评估大模型

它能得几分?“如果你只能选一个,你敢不敢用它上线?对战评估,也许不是完美方案,但它可能是我们这个时代,最接近真实用户感受的评估方式。

2025-12-16 06:30:00 620

原创 阅读《AI Engineering》笔记14 「AI Judge」评测技术

MLflow 的评分方式 ≠ Ragas ≠ LlamaIndex。听起来很离谱,但这已经成了目前最主流的 AI 评价方式之一。一个 AI 模型,专门负责给另一个 AI 的回答打分。✅ 语气是否符合角色设定(如“像不像甘道夫说的?例子:Google 的 Cappy(3.6 亿参数)未来会不会出现专门“评测型 AI”这个职业?没关系,让 AI 来打分。只抽查一部分样本(spot-check)100 字错误答案 > 50 字正确答案。不会完全取代,但已经成为现实工程里的。AI 评 AI 会不会“互相作弊”?

2025-12-15 06:30:00 526

原创 《Prompt Engineering白皮书》笔记07 大模型其实是“边想边干活”的

很多程序员还在纠结:“哪个模型更强?但真正拉开差距的是:❌你是否还停留在“问一句、答一句”✅还是已经开始用Agent 思维训练模型?

2025-12-14 18:30:00 354

原创 阅读《AI Engineering》笔记13 评估大模型有多难

能用功能验证的,就别用相似度;能用相似度的,就别太信参考答案;能用语义向量的,才是比较接近“人类理解”的评估方式。

2025-12-14 06:30:00 710

原创 阅读《AI Engineering》笔记12 读懂大模型论文

你不需要记住公式,你只需要记住这几句话:✅Cross Entropy 越低 → 模型越聪明✅Perplexity 越低 → 模型越不迷茫✅BPB 越小 → 模型越擅长理解和压缩文本背下一句金句:看懂模型指标的人,才能真正读懂大模型的实力。

2025-12-13 06:30:00 441

原创 《Prompt Engineering白皮书》笔记06 为什么你的大模型总是“想不明白”?

特性思维结构单一路径多路径投票树状分支搜索稳定性一般高极高计算成本低高非常高适合任务普通推理安全性/可靠性任务复杂探索型任务真正限制大模型能力的,从来不是“参数量”,它如何思考。未来的大模型竞争,不是比谁更大,而是比谁更会“想”。

2025-12-12 18:30:00 485

原创 阅读《AI Engineering》笔记11 模型越来越难评测了

未来 AI 世界的差距,可能不在“谁模型更大”,而在于——谁更会科学地评估模型。

2025-12-12 06:30:00 1349

原创 阅读《AI Engineering》笔记10 AI 幻觉的真相

甚至前一句刚说“Chip Huyen 是建筑师”,后一句又一本正经地胡说八道。模型在模仿“它不理解的知识”时,等于被训练去“瞎编但要编得像真的”。模型若生成一段解释性文字,一切 downstream 都挂。一个缺右括号的、跑不了的、甚至完全不是 JSON 的玩意。“模型其实知道自己知道什么,但我们训练方式却让它混淆了。它可能 70% 的时候回答越南菜,30% 说意大利菜。你让模型帮你生成一个 JSON,它非常努力地给你……但现实中,我们就是要它写——并且要“严格格式正确”

2025-12-11 06:30:00 607

原创 《Prompt Engineering白皮书》笔记05 别再只会“直接问 AI”了:两个让大模型更聪明的隐藏技巧(实测有效)

✅ 先问“大方向”✅ 再做“具体任务”✅ 让模型自动调用更多隐性知识在回答下面问题之前,请先总结这一类问题的通用思路,然后再根据这个思路一步一步给出答案。很多人以为自己“会用 AI”,其实只是会“跟 AI 聊天”。真正的高手,是教会 AI 怎么思考。

2025-12-10 18:30:00 653

原创 阅读《AI Engineering》笔记09 为什么大模型的回答不是固定的

Sampling 决定了:模型会不会“胡说八道”输出是创意还是稳定同样 prompt 得到的答案会不会变化模型生成的效率和速度多样性 vs 可控性如何平衡Sampling 是大模型“性格”的调节器。如果你能熟练调教 temperature、top-k、top-p、采样次数、停止条件,你就能让模型输出朝着你想要的方向走。

2025-12-10 06:30:00 1516

原创 阅读《AI Engineering》笔记08 为什么大模型“越训越聪明”

阶段目的类比SFT教模型如何回答学习“怎么写好作业”RLHF/DPO教模型回答得更符合人类偏好老师给作业打分、点评、纠错预训练给了模型知识,而后训练让模型“像人、有边界、懂分寸”。也正因为后训练,大模型才真正从“文本预测器”,进化为“有用、可控、安全的 AI 助手”。

2025-12-09 06:30:00 755

原创 《Prompt Engineering白皮书》笔记04 System / Context / Role 三种提示工程

System Prompt = 给AI设定“最高指令”,谁都不能违背。

2025-12-08 18:30:00 386

原创 阅读《AI Engineering》笔记07 为什么大模型这么能

参数量(capacity)训练 tokens(learned knowledge)训练 FLOPs(cost)这三个数字决定:它能学多少学得怎么样你要花多少钱它是否能继续变强因为:你想训练自己的模型?得知道预算怎么配。想做 AI 产品?得知道成本结构。想做技术判断?得知道技术极限在哪里。想在 AI 时代立足?得理解“规模效应”才是推动 AI 进化的底层动力。未来 2–3 年,懂 Scaling 的人,永远不会被时代抛下。

2025-12-08 06:30:00 809

原创 阅读《AI Engineering》笔记06 Transformer 为何能称霸大模型时代

注意力机制解决信息瓶颈输入可并行,训练可扩展工程生态极其成熟但它的弱点也很明显:长序列成本高KV 缓存巨大解码仍然逐 token 输出,速度受限未来是否会被 SSM 或其他架构替代?可能会,但要满足两个条件:性能真的更强能在主流硬件上跑得动这也是为什么 Transformer 依然稳坐王座。

2025-12-07 06:30:00 767

原创 《Prompt Engineering白皮书》笔记03 Prompt怎么写才高效

模型不是你肚子里的蛔虫,它只会模仿你写的内容。

2025-12-06 18:30:00 942

原创 阅读《AI Engineering》笔记05 为什么你的模型总“不听话”

想要模型在某项任务上强:不是把它喂得更多,而是喂得更对。大模型的能力,本质上是:数据 × 算法 × 计算量其中“数据”是最容易被忽视,也最决定命运的部分。

2025-12-06 06:30:00 1577

原创 阅读《AI Engineering》笔记04 AI 工程师真正的技术栈

AI 工程不是“训练模型”,而是“把大模型变成真正可用的产品”。AI 工程三层技术栈应用开发(Prompt、RAG、界面、评测)模型开发(Finetune、数据、推理优化)基础设施(部署、监控、GPU 集群)AI 工程与 ML 工程的核心差异注重适配而不是训练模型更大 → 推理优化更重要输出开放 → 评测更重要工程链路更贴近产品 → 更依赖全栈能力未来 5 年最缺的人才,就是能搭建这一整套链路的AI 工程师。

2025-12-05 06:30:00 760

原创 《Prompt Engineering白皮书》笔记02 把模型配置调对

想要的风格推荐设置稳定、专业创意写作/营销文案绝对准确T=0避免循环不要 T=0,也不要 T>1.2;Top-P 维持在 0.9–0.98。

2025-12-04 18:30:00 460

原创 阅读《AI Engineering》笔记03做 AI 产品的“清醒指南”

LinkedIn 曾公开分享:1 个月做到理想体验的 80%再提升到 95% → 花了 4 个月后续每提升 1%,都痛苦异常。

2025-12-04 06:30:00 376

原创 阅读《AI Engineering》笔记02AI落地方向的超级全景图

现代工作被信息淹没——邮件、Slack、会议、文档。AI 的价值在于:自动总结 + 自动提炼行动项文件问答(talk-to-your-docs)市场研究、竞品分析这类工具可以直接“减少中层管理的负担”。就像当年没人预料到“社交媒体”会成为互联网主场一样,AI 的最终主流应用可能也是一个现在没人想到的新场景。未来肯定属于那些能把 Foundation Model 用好的团队和个人。不卷模型,卷应用。不卷 Demo,卷落地。不卷文案,卷解决方案。

2025-12-03 06:30:00 1531

原创 《Prompt Engineering白皮书》笔记01让 AI 真正“听懂”你的话

简单来说,提示工程就是“设计、写好提示,让 AI 听得懂、做得对”。也就是说,你对模型说什么、怎么说,会直接影响模型输出的质量。维基百科提示可以只是一个问题,也可以是包含上下文、示例、角色、格式要求的复杂指令。好的提示,相当于为模型画了一张“蓝图”。根据白皮书,任何人——不必是 ML/AI 专家,也能通过提示工程使用 LLM。谷歌AI博客这部分是整个白皮书的“干货”:它不仅介绍了基础提示方式,也涵盖了许多进阶技巧。技术 / 方法适用场景 / 特点Zero-Shot Prompting(零样本提示)

2025-12-02 18:30:00 236

原创 阅读《AI Engineering》笔记01AI 工程师的崛起

从 1950 的语言模型到 2018 的 GPT到 2023 的 GPT-4V到 2024 的多模态大模型爆发最后到 2025 的 “AI 工程师” 时代来临这是一次真正的技术文明升级。如果你错过了移动互联网时代错过了公众号时代错过了短视频时代。

2025-12-02 06:30:00 266

2049未来10000天的可能 (美凯文·凯利 著吴晨 编著)

这本《2049》就是要立足中国视角,结合中外观点,在充分沟通的基础之上,展望未来25年的变化。 与凯利一起创作本书是我人生中最愉悦的一段经历。 本书以凯利的口吻著述,第1章至终章是在我与凯利的深度对话基础之上编辑而成的,结语部分则是我从另一视角对全书观点的总结。希望我与凯利的对话能开启一种全新的跨国与跨界的创作范式,让更多立足中国的思考可以加入全球重大议题的讨论。——吴晨

2025-11-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除