小马过河R-优快云博客

本文介绍了AIGC短视频制作入门指南，主要包含三个部分：制作流程、提示词公式和实践体验。作者总结出AIGC短视频制作需经过剧本编写、分镜、文生图、图生视频、剪辑和配音六个步骤。重点讲解了文生视频和图生视频的提示词公式，并比较了两者在主体一致性和创意自由度方面的优缺点。最后通过万相平台的实操案例，展示了如何运用提示词生成3D卡通风格的二郎神大战美猴王视频，同时指出免费版生成时间较长的问题。文章为AIGC视频创作新手提供了实用的入门指导。

2025-08-09 13:11:03 1804 2

原创《深入浅出Embedding》这本书

《深入浅出Embedding》系统解析了Embedding技术的本质与实践应用。该书从向量化表达、技术演进、工业落地到认知维度四大层面，剖析如何将离散对象转化为低维稠密向量，实现语义关联计算。内容涵盖从Word2vec到BERT的技术发展，并结合推荐系统、机器翻译等实战案例，提供"万物皆可向量化"的思维范式。书中强调没有最优模型只有最适组合，将Embedding视为机器理解世界的"翻译词典"。适合不同层次读者，既可学习基础应用，也能深入技术优化，最终培养用向量空间视角

2025-08-06 23:05:42 858 1

原创多模态大模型的原理

多模态模型通过整合多种数据模态（如文本、图像、音频、视频等），实现跨模态的理解与生成，其核心原理是将异构数据映射到统一语义空间并进行联合推理。

2025-08-03 12:25:08 817 4

原创 MCP Agent 工程框架Dify初探

摘要：Dify初探：企业级AI应用开发平台解析 Dify是一款开源的大语言模型应用开发平台，融合了后端即服务和LLMOps理念，支持非技术人员参与AI应用开发。相比LangChain等工具库，Dify提供更完整的生产级解决方案，具备API调用、WebApp托管和易用界面三大核心功能。平台支持五种应用类型：聊天助手（多轮对话）、文本生成应用（表单式问答）、Agent（复杂任务分解与工具调用）、对话流和工作流。其中Agent类型尤为强大，支持Function calling和ReAct两种推理模式，可集成知识库

2025-08-02 17:30:00 1033 2

原创如何5分钟快速搭建智能问答系统

5分钟快速搭建智能问答系统

2025-07-20 15:33:50 1131 3

原创 Prompt提示词的主要类型和核心原则

Prompt提示词的主要类型和核心原则

2025-07-10 23:05:44 1398 3

原创 k8s Ingress、Service配置各样例大全

k8s核心，ingress、service配置各样例大全

2025-06-23 09:43:20 871 9

原创 K8s入门指南：架构解析浓缩版与服务间调用实战演示

本文介绍了Kubernetes（k8s）的核心概念和架构，帮助读者快速入门和复盘。k8s作为云原生基石，源自Google的Borg系统，其架构包含Master节点（Api Server、Scheduler、Controller）、Node节点（运行容器的kubelet和负载均衡的kube-proxy）以及Etcd键值数据库。重点解析了Pod作为最小部署单元的特性，以及Service的四种类型（ClusterIP、NodePort、LoadBalancer、ExternalName）及其作用。

2025-06-22 20:54:02 1138 3

原创领域驱动设计（DDD）初见面（附示例代码）

最近在重新关注微服务与Service Mesh的实践（后续我们系统来讲），随便关注了下领域驱动设计（DDD）。本文主要整理对领域驱动设计（DDD）初步了解，并提供了PHP的领域驱动设计（DDD）实践参考代码案例，希望能对大家有所帮助。

2025-06-01 06:59:21 1155 3

原创不加载PHP OpenTelemetry SDK实现Trace‌与Logs

前面两篇我们分别介绍了OpenTelemetry原理以及借助PHP OpenTelemetry SDK实现的分布式链路追踪Trace‌和日志Logs，按理说我们已经可以起飞了✈️。但是实际情况可能各有不同，有些PHP项目使用的PHP版本相对老旧，而且由于历史的原因升级是一件很麻烦的事。那怎么办呢？不能升级PHP版本就无法使用SDK且无法实现自己项目的OpenTelemetry 布式链路追踪Trace‌和日志Logs？答案当然是：❌。

2025-05-31 00:22:17 1375 3

原创基于OpenTelemetry的日志Logs实现（PHP篇）

前一篇我们讲到了《基于OpenTelemetry的分布式链路追踪Trace‌实现（PHP篇）》，上篇文章我们了解到OpenTelemetry协议不仅仅只是分布式链路追踪Trace‌，还有一个标准是Logs，这也是我们平时常用的功能之一，而且如果不是分布式/微服务可能对Trace‌的需求并不是那么强烈。于是，回过头来我们讲讲基于OpenTelemetry的日志Logs实现保姆级教程。

2025-05-30 07:33:52 1198 1

原创 OpenAI Agent调用MCP Server案例分析

今天还是以最通俗易懂的形式来介绍一个OpenAI Agent调用MCP Server的简单案例分析，化繁为简帮助大家体验和进一步理解MCP与Agent的结合编码实现。

2025-05-17 11:55:26 1216 6

原创编写第一个MCP Client之Hello world

MCP client 极简demo

2025-05-14 11:32:48 1342 2

原创编写第一个MCP Server之Hello world

本文介绍了如何从零开始编写一个名为“Echo”的MCP（Model Context Protocol）服务器。首先，作者建议在动手前仔细阅读MCP官网的介绍，并提供了相关链接。接着，详细说明了环境检查与项目初始化的步骤，包括Node.js版本要求、项目创建、依赖安装以及文件结构设置。随后，文章指导如何构建MCP服务器，包括导入包、设置服务器实例、定义工具和提示功能，并实现主函数来运行服务器。最后，通过使用Cline插件验证服务器的功能，确认服务器成功运行并响应请求。文章结尾提到官方SDK的语言支持，并预告下

2025-05-10 11:16:26 979 3

原创在Cline上调用MCP服务之MCP实践篇

我们以Visual Studio Code上的Cline插件调用MCP为例来直观感受下MCP的调用流程实践，以此来加深对MCP概念的理解。

2025-05-09 23:44:05 2170 1

原创基于OpenTelemetry的分布式链路追踪Trace‌实现（PHP篇）

它的出现是为了解决多个监控工具之间的互操作性问题，以及提供一种统一的方式来收集、处理和分析遥测数据，从而帮助开发和运维团队更有效地理解和优化他们的服务。每一套协议的诞生一定是为了解决已存在的某难题的，就好比得先有四通八达的马路和满街的汽车，交通规则的诞生才有意义，如果只是三三两两的车流，似乎交通规则就没那么大的价值。OpenTelemetry部分是支持无缝接入的，也就是非入侵式的服务监控和分布式追踪，当然如果你需要个性化地“埋点”自己的服务调用链路情况，那就可以自己手动用代码实现了（代码侵入式）。

2025-05-07 16:50:24 1360 2

原创模型上下文协议（Model Context Protocol，MCP）初见概念篇

模型上下文协议（Model Context Protocol，MCP），是由 Anthropic推出的开源协议，旨在实现大语言模型与外部数据源和工具的集成，用来在大模型和数据源之间建立安全双向的连接。模型上下文协议协议是专为高效获得模型所需要上下文信息而设计的通用接口，可以将推动大语言模型应用的标准化和去中心化。

2025-05-01 06:36:48 1285 3

原创如何控制DeepSeek的输出内容之AI时代的流量入口GEO

如何控制DeepSeek的输出内容？”、“有人已经开始在干预和污染AI搜索的爬取内容啦！”、“如何让你的产品信息被AI大模型推荐？”…最新总是听到如上类似的信息，在这个AI盛行的时代，一些新的问题挑战产生了，同时一些新的机遇也产生了。传统的 SEO 依赖于关键词排名和反向链接，而生成引擎优化（GEO)优先考虑结构化内容、实体识别和信任信号。适应人工智能驱动的搜索需要转变策略。那么这又是说的什么呢？我们又该如何做呢？小马进行了一番整理并尝试用通俗的方式和大家一起分享一下。

2025-04-26 12:38:29 983 2

原创声音识别（声纹识别）和语音识别的区别

综上，声音识别不注重语音信号的语义，而是从语音信号中提取个人声纹特征，挖掘出包含在语音信号中的个性因素。语音识别注重识别语音内容，声音识别（声纹识别）注重提取并识别个人声纹特征。声音识别的准确性依赖于信号质量、特征提取算法及模型训练数据量‌。例如，听歌识曲通过短时音频指纹匹配实现快速识别‌，而声纹识别则利用音色、频率等生物特征进行身份验证‌。

2025-04-20 11:35:25 1906 3

原创全球首个AI机器人单精注射婴儿出生

据 newscientist 近日报道，2025年4月10日，全球首个通过全自动AI机器人完成卵胞浆内单精注射（ICSI）的婴儿在墨西哥瓜达拉哈拉市诞生，标志着辅助生殖技术正式迈入自动化与人工智能融合的新阶段‌。

2025-04-14 14:03:18 773

原创如何实现语音智能客服（二）

TTS（Text To Speech）是一种通过技术手段将文本信息转换为自然语音输出的技术，属于语音合成（Speech Synthesis）的核心应用领域‌。基本定义‌TTS全称为“从文本到语音”，通过计算机程序或专用设备将文字内容转化为可理解的语音信号，实现文字与语音的无缝转换‌。工作原理‌文本预处理‌：对输入文本进行清洗（如去除冗余符号）和标准化处理‌；声学建模‌：利用语音合成模型（如神经网络）将词汇转换为声学特征（频率、音调等）‌；

2025-04-13 18:35:37 912 1

原创如何实现语音智能客服（一）

输入：语音/音频信号；输出：结构化文本‌。支持场景：实时字幕生成、语音输入法、智能助手交互（如 Siri、Alexa）‌。

2025-04-13 12:14:22 944

原创通俗理解CLIP模型如何实现图搜图乃至文搜图

图搜图和文搜图的场景相信大家并不少见，比如度娘的搜索框就可以直接上传图片找到相似的图片，还有某宝某团都有这种上传图片匹配到相似商品或者商品页的推荐的功能。那比如我想搜一张“正在跳舞的狗”的图片，是不是就能搜出来呢？我们可以看到搜是搜出来了，但是基本图片的标题都涵盖了关键字“跳舞”、“狗”等。那么问题来了，度娘的图片搜索用的是图片标签的关键词匹配还是深度学习的文搜图？这个小马目前也不得而知，但丝毫不影响今天的主题。

2025-04-11 17:47:19 1321 3

原创 AI算法大全初见面

小马最近在，也遇到了不少算法相关的考题，回过头来还是需要系统学习和深挖一下算法的，以前也简单整理过。以前只是需要用什么学什么，现在发现终归还是要还的。于是咱们还是先从整体到局部一步步剥开AI算法这道大门吧。人工智能（AI）算法种类繁多，涵盖从基础机器学习到前沿深度学习、强化学习等多个领域。

2025-04-04 11:55:33 994 4

原创自编码器AE、变分自编码器VAE、对抗生成网络GAN、Transformer放一起来看！

AE是一种强大的无监督学习工具，广泛应用于数据降维、特征提取、去噪和重建等任务。通过编码器和解码器的协作，Autoencoder能够学习到输入数据的低维表示，并在许多领域（如图像处理、自然语言处理）中发挥重要作用。AE主要用于数据的压缩与还原，在生成数据上使用VAE（如上图）；AE是将数据映直接映射为数值code，而VAE是先将数据映射为分布，再从分布中采样得到数值code；VAE的缺点是生成的数据不一定那么“真”，如果要使生成的数据“真”，则要用到GAN。

2025-04-04 11:55:00 1213

原创知识图谱初相识（概念理解篇）

知识图谱是以图结构为核心的语义网络，通过节点实体/概念）和边关系）的关联关系，结构化描述现实世界的知识体系‌。其本质是通过图模型实现知识的可视化表达与计算机可理解的语义化推理能力‌，支持从数据到知识的跃迁‌。通俗的讲就是存储关联关系，之后可以在此基础上进行一系列的规则计算和推理计算。凡有涉及到关系关系的都比较适用知识图谱。

2025-03-29 16:46:41 1207 2

转载图解“AI大模型蒸馏技术”！

不仅培养他的过程很耗时耗力（训练成本高），请他过来讲课成本也很高，要有很大一笔安家费（部署模型的硬件基础设施，甚至数据中心），还要支付超高的课时费（推理成本高）。适用于企业自身积累了大量知识库文档，通过RAG的方式，与大模型关联。除了输出层蒸馏，还有中间层蒸馏（也叫特征层蒸馏），不仅学到最终判断的结论，还学习老师对图像/文本的内部理解，更深入地继承老师的“知识结构”。这种方式操作起来最简单，即便教师模型不开源，你拿不到教师模型，只要能调用他的API，看到老师的知识输出，就可以模仿他，蒸馏出自己的小模型。

2025-03-26 16:30:38 144 1

原创如果AI具备自我意识，宗教如何重新定义“灵魂”概念？

传统宗教（如基督教、佛教）通常将灵魂视为人类独有的“神圣本质”或“轮回载体”。

2025-03-23 17:38:36 407

原创 Manus和DeepSeek的区别

前段时间，Manus一夜爆火，号称全球首款自主AI Agent（智能代理）产品，甚至都提到了和DeepSeek相提并论的高度。对此小马的拙见还真不敢苟同。万万没想到的是，到如今事情已经过去大半个月了，各大媒体还在持续报道相关关键词，甚至不乏一些权威核心媒体。那还是来一起看看吧，分享一下小马的观点。

2025-03-23 17:17:06 1074 2

原创 AI存在伦理问题吗

人工智能（AI）确实存在广泛的伦理问题，涉及技术设计、应用场景和社会影响等多个层面。

2025-03-20 14:52:58 850 1

原创如何让大模型的回答带上信源索引标注来源

LongCite是一个旨在使LLMs（大语言模型）能够在长上下文问答（Long-Context Question Answering, LQAC）中生成细粒度引用（fine-grained citations）的技术。该技术的核心目标是提高LLMs在生成回答时的可信度和可验证性，通过在回答中添加精确到句子级别的引用，使用户能够更容易地验证模型的输出信息。《LongCite: 让LLM在长上下文问答中生成细粒度引用》仓库：https://github.com/THUDM/LongCiteLongCite通过。

2025-03-20 14:21:57 2393 5

原创看看这篇DeepSeeK R1写的《哪吒2》影评什么水平

在片尾彩蛋中，手持罗盘的姜子牙出现在元宇宙招聘会现场，这个充满荒诞感的场景，恰是整部电影的精神注脚。敖丙与龙族的和解过程，揭示了原生家庭创伤的代际传递机制。心理咨询师出身的编剧团队，特意设计了"龙珠记忆回溯"的情节装置，让敖丙在虚拟现实中目睹父亲被镇压的创伤记忆，这种叙事策略巧妙地将东方轮回观与现代心理学融合。当太乙真人用3D生物打印技术为哪吒重塑肉身时，闪烁的DNA双螺旋与电路板纹路在显微镜下交织，这个长达2分钟的特写镜头，提出了触及灵魂本质的终极追问：当机械义肢替换率超过51%，人类是否还能保持本真？

2025-03-06 12:49:24 1126

原创 DeepSeek R1核心原理GRPO算法详解

模型的更新迭代实在是太快了，就在今天早上，阿里的千问发布推理模型号称媲美R1。那么对R1核心原理还比较模糊的同学，我们还是一起回头整理下对DeepSeek的核心原理GRPO算法的理解吧。

2025-03-06 12:29:02 1467 2

原创人工智能发展全景与DeepSeek-R1

▸ 跨模态分析：CT影像+基因数据联合诊断（准确率提升37%）▸ 工厂数字孪生：实时优化生产线（故障预测响应时间<50ms）▸ 训练能耗：相比同类模型降低58%（采用光子计算芯片）▸ 推理成本：每百万token费用$0.12（行业最低）▸ 通用人工智能（AGI）达成率评估指数达L4级。▸ 神经形态芯片量产（能效比提升1000倍）▸ 数学能力：IMO竞赛题准确率89.7%▸ AGI实现：L3级（仍需5-8年）▸ 首个开源万亿模型（LAION联盟）▸ 互联网数据爆发（ZB级）▸ 发布时间：2025年Q1。

2025-02-26 21:12:15 1056

原创我的创作纪念日

我叫小马，从事IT行业十年有余，平时不是在写BUG就是在写BUG的路上。也许这就是所谓的压死骆驼的最后一根稻草又或许这就是所谓的机缘，来了就是优快云人。迄今为止，小马的数据不算好（如下图），但我看模版中有这个格式填空，所以我就粘一下吧，也作为一个里程碑的记录。过去写前端、写服务端，写运维，写小游戏、写网安、写解决方案等等，直到现在写AI。谈不上什么成就吧，就是希望每天进步一点点，我相信跑着跑着花就开了，跑着跑着你就在最前沿了。从此不管是平时工作经验的整理还是资料的分享抑或是笔记的备忘整理都是小马的日常。

2025-02-26 13:16:36 571 1

空空如也

如何实现一个PHP微服务的日志系统考虑，代码侵入和非侵入的情况