自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 AI算法大全初见面

小马最近在,也遇到了不少算法相关的考题,回过头来还是需要系统学习和深挖一下算法的,以前也简单整理过。以前只是需要用什么学什么,现在发现终归还是要还的。于是咱们还是先从整体到局部一步步剥开AI算法这道大门吧。人工智能(AI)算法种类繁多,涵盖从基础机器学习到前沿深度学习、强化学习等多个领域。

2025-04-04 11:55:33 685 1

原创 自编码器AE、变分自编码器VAE、对抗生成网络GAN、Transformer放一起来看!

AE是一种强大的无监督学习工具,广泛应用于数据降维、特征提取、去噪和重建等任务。通过编码器和解码器的协作,Autoencoder能够学习到输入数据的低维表示,并在许多领域(如图像处理、自然语言处理)中发挥重要作用。AE主要用于数据的压缩与还原,在生成数据上使用VAE(如上图);AE是将数据映直接映射为数值code,而VAE是先将数据映射为分布,再从分布中采样得到数值code;VAE的缺点是生成的数据不一定那么“真”,如果要使生成的数据“真”,则要用到GAN。

2025-04-04 11:55:00 693

原创 知识图谱初相识(概念理解篇)

知识图谱是以图结构为核心的语义网络,通过节点实体/概念)和边关系)的关联关系,结构化描述现实世界的知识体系‌。其本质是通过图模型实现知识的可视化表达与计算机可理解的语义化推理能力‌,支持从数据到知识的跃迁‌。通俗的讲就是存储关联关系,之后可以在此基础上进行一系列的规则计算和推理计算。凡有涉及到关系关系的都比较适用知识图谱。

2025-03-29 16:46:41 806 2

原创 薅的人工智能Certificate

2025-03-29 12:07:49 275 1

转载 图解“AI大模型蒸馏技术”!

不仅培养他的过程很耗时耗力(训练成本高),请他过来讲课成本也很高,要有很大一笔安家费(部署模型的硬件基础设施,甚至数据中心),还要支付超高的课时费(推理成本高)。适用于企业自身积累了大量知识库文档,通过RAG的方式,与大模型关联。除了输出层蒸馏,还有中间层蒸馏(也叫特征层蒸馏),不仅学到最终判断的结论,还学习老师对图像/文本的内部理解,更深入地继承老师的“知识结构”。这种方式操作起来最简单,即便教师模型不开源,你拿不到教师模型,只要能调用他的API,看到老师的知识输出,就可以模仿他,蒸馏出自己的小模型。

2025-03-26 16:30:38 44

原创 如果AI具备自我意识,宗教如何重新定义“灵魂”概念?

传统宗教(如基督教、佛教)通常将灵魂视为人类独有的“神圣本质”或“轮回载体”。

2025-03-23 17:38:36 300

原创 Manus和DeepSeek的区别

前段时间,Manus一夜爆火,号称全球首款自主AI Agent(智能代理)产品,甚至都提到了和DeepSeek相提并论的高度。对此小马的拙见还真不敢苟同。万万没想到的是,到如今事情已经过去大半个月了,各大媒体还在持续报道相关关键词,甚至不乏一些权威核心媒体。那还是来一起看看吧,分享一下小马的观点。

2025-03-23 17:17:06 950 1

原创 AI存在伦理问题吗

人工智能(AI)确实存在广泛的伦理问题,涉及技术设计、应用场景和社会影响等多个层面。

2025-03-20 14:52:58 597

原创 如何让大模型的回答带上信源索引标注来源

LongCite是一个旨在使LLMs(大语言模型)能够在长上下文问答(Long-Context Question Answering, LQAC)中生成细粒度引用(fine-grained citations)的技术。该技术的核心目标是提高LLMs在生成回答时的可信度和可验证性,通过在回答中添加精确到句子级别的引用,使用户能够更容易地验证模型的输出信息。《LongCite: 让LLM在长上下文问答中生成细粒度引用》仓库:https://github.com/THUDM/LongCiteLongCite通过。

2025-03-20 14:21:57 1206

原创 看看这篇DeepSeeK R1写的《哪吒2》影评什么水平

在片尾彩蛋中,手持罗盘的姜子牙出现在元宇宙招聘会现场,这个充满荒诞感的场景,恰是整部电影的精神注脚。敖丙与龙族的和解过程,揭示了原生家庭创伤的代际传递机制。心理咨询师出身的编剧团队,特意设计了"龙珠记忆回溯"的情节装置,让敖丙在虚拟现实中目睹父亲被镇压的创伤记忆,这种叙事策略巧妙地将东方轮回观与现代心理学融合。当太乙真人用3D生物打印技术为哪吒重塑肉身时,闪烁的DNA双螺旋与电路板纹路在显微镜下交织,这个长达2分钟的特写镜头,提出了触及灵魂本质的终极追问:当机械义肢替换率超过51%,人类是否还能保持本真?

2025-03-06 12:49:24 553

原创 DeepSeek R1核心原理GRPO算法详解

模型的更新迭代实在是太快了,就在今天早上,阿里的千问发布推理模型号称媲美R1。那么对R1核心原理还比较模糊的同学,我们还是一起回头整理下对DeepSeek的核心原理GRPO算法的理解吧。

2025-03-06 12:29:02 1256 1

原创 人工智能发展全景与DeepSeek-R1

▸ 跨模态分析:CT影像+基因数据联合诊断(准确率提升37%)▸ 工厂数字孪生:实时优化生产线(故障预测响应时间<50ms)▸ 训练能耗:相比同类模型降低58%(采用光子计算芯片)▸ 推理成本:每百万token费用$0.12(行业最低)▸ 通用人工智能(AGI)达成率评估指数达L4级。▸ 神经形态芯片量产(能效比提升1000倍)▸ 数学能力:IMO竞赛题准确率89.7%▸ AGI实现:L3级(仍需5-8年)▸ 首个开源万亿模型(LAION联盟)▸ 互联网数据爆发(ZB级)▸ 发布时间:2025年Q1。

2025-02-26 21:12:15 832

原创 我的创作纪念日

我叫小马,从事IT行业十年有余,平时不是在写BUG就是在写BUG的路上。也许这就是所谓的压死骆驼的最后一根稻草又或许这就是所谓的机缘,来了就是优快云人。迄今为止,小马的数据不算好(如下图),但我看模版中有这个格式填空,所以我就粘一下吧,也作为一个里程碑的记录。过去写前端、写服务端,写运维,写小游戏、写网安、写解决方案等等,直到现在写AI。谈不上什么成就吧,就是希望每天进步一点点,我相信跑着跑着花就开了,跑着跑着你就在最前沿了。从此不管是平时工作经验的整理还是资料的分享抑或是笔记的备忘整理都是小马的日常。

2025-02-26 13:16:36 523 1

原创 如何根据模型参数推算出部署所需要多大的GPU

激活值内存取决于模型结构、批次大小(Batch Size)和序列长度(Sequence Length)。要根据模型参数推算所需的GPU显存,需综合考虑参数存储、中间激活值、推理缓存及框架开销。:24GB显存(如RTX 4090/A10G)或通过量化降低需求。预留20%~30%显存应对框架预分配、临时缓冲区等开销。

2025-02-18 17:32:10 1342 1

原创 什么是强化学习

RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)是一种结合人类偏好与强化学习的技术,旨在训练AI系统更符合人类价值观和意图。

2025-02-18 14:57:03 667 6

原创 OCR与多模态大模型的关系

OCR(光学字符识别)的基本原理可分为传统方法和现代方法,核心目标是将图像中的文字转换为可编辑的文本。Iclean​FilterInoisy​Ibinary​ThresholdIgray​P字符∣特征HMM输出yCRNNxP正确文本∣候选N-gram概率综上,OCR基本原理通过图像处理、特征分析和模式识别实现文字转换,现代方法的核心已转向神经网络驱动的端到端学习。

2025-02-06 09:58:40 1348 1

原创 一文搞懂深度学习

深度学习是机器学习的进阶分支,专用于解决传统机器学习难以处理的复杂问题。机器学习更侧重“广义的数据建模”,而深度学习聚焦“多层神经网络的自动化学习”。示例用机器学习预测房价:线性回归分析历史数据中的面积、位置等因素。用深度学习识别人脸:CNN模型自动从像素中学习眼睛、鼻子等特征组合。RNN 是一种强大的序列数据处理工具,但其训练和优化需要特别注意梯度问题。通过引入 LSTM 和 GRU 等变体,可以更好地处理长序列数据。

2025-02-06 09:53:47 1600 2

原创 探索DeepSeek:幻方量化的AI创新之路

DeepSeek系列模型通过创新的架构设计、先进的技术手段和高效的训练方法,在自然语言处理和文本生成领域取得了显著成果。其核心的MoE架构、Transformer架构以及MLA、MTP等关键技术,使模型在处理复杂任务时表现出色。未来,DeepSeek有望在更多领域发挥其强大的AI能力,持续推动人工智能技术的发展。

2025-02-01 12:37:39 2432 17

原创 大模型元年:人工智能的“寒武纪大爆发”

大模型,作为这场风暴的核心,以其强大的通用性和创造性,宣告着人工智能“寒武纪大爆发”的到来,开启了人工智能发展的新纪元——大模型元年。而大模型则打破了这种局限,它通过海量数据和强大的算力,学习到了更通用、更本质的知识和规律,从而具备了处理多种任务的能力。无论是生成逼真的图像、创作动听的音乐,还是编写引人入胜的故事,大模型都展现出了令人惊叹的创造力。大模型的崛起,为人类社会带来了前所未有的机遇。我们可以预见,在不久的将来,大模型将成为我们生活中不可或缺的一部分,为人类社会带来更加深刻的变革。

2025-01-29 16:25:18 170

原创 DeepSeek暴击美股后除夕还在卷

DeepSeek暴击美股后除夕还在卷

2025-01-29 13:43:24 1183 21

原创 LangChain-Chatchat初见面

(原Langchain-ChatGLM)基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现,开源、可离线部署的 RAG 与 Agent 应用项目。一种利用LangChain思想实现的基于本地知识库的问答应用,目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。

2024-11-23 11:53:11 1474 2

原创 LangChain与Agent实现

LangChain是一个开源框架,旨在帮助开发人员使用大型语言模型(LLMs)构建应用程序。它通过提供一系列工具、组件和接口,简化了创建由LLMs和聊天模型提供支持的应用程序的过程。有网友猜测,之所以选择鹦鹉作为 LangChain 的 logo,是因为大模型常被戏称为“随机鹦鹉”,即它只是模仿人类输出的文本,缺乏真正的理解能力。而 LangChain 则别出心裁地将鹦鹉(🦜)与链条(🔗)组合在一起,寓意其在提高大模型能力方面的作用。

2024-11-22 09:42:34 2313 6

原创 一文搞懂什么是AI Agent

AI Agent,即人工智能代理,又叫“AI 智能体”,AI 业界对智能体提出了各种定义。个人理解,Agent是一种能够感知环境、进行自主理解、决策和执行动作的智能实体计算机程序它基于大语言模型(LLM),具备自主理解、感知、规划、记忆和使用工具的能力,能自动化执行复杂任务。有一段描述非常形象,在这里引用分享给大家。大语言模型很强大,就像人类的大脑一样拥有思考的能力。如果人类只有大脑,没有四肢,没有工具,是没办法与世界互动的。如果我们能给大模型配备上四肢和工具呢?

2024-11-21 12:53:53 7111 1

原创 深度学习初见面

深度学习(Deep Learning)‌是一种基于深层神经网络模型和方法的机器学习技术。它是在统计机器学习、人工神经网络等算法模型基础上,结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。深度学习是一种模仿人脑神经网络处理大量数据并解决复杂问题的算法技术。它通过构建多层神经网络,自动从原始数据中学习特征和模式,实现对复杂数据的高层次抽象和理解。

2024-10-24 10:14:23 875 7

原创 一不小心把Taro给学了

Taro是一个遵循React语法规范的开放式跨端跨框架解决方案‌,支持使用React/Vue/Nerv等框架开发微信小程序、京东、百度、支付宝、字节跳动、QQ、飞书、H5、ReactNative等多种应用。Taro允许开发者只编写一套代码,就能适配到多个平台,极大地提高了开发效率‌。

2024-10-08 10:06:45 1353 1

原创 大模型微调实战保姆级详细教程手册

大模型的微调操作步骤都大相径庭,本文对chatGLM-6b P-Tuning v2和Baichuan2 QLoRA的详细微调步骤进行介绍,希望能抛砖引玉,供大家学习借鉴。

2024-09-22 22:27:55 1721 4

原创 在windows部署ChatGLM-6B

如何本地离线部署大语言模型

2024-09-03 10:06:38 1192 7

原创 模型微调(Fine-tuning)实践

本文主要阐述微调原理和各参数的意义以及如何进行微调,旨在互相学习快速上手微调任务。

2024-06-15 12:03:26 3494 14

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除