AI周红伟-优快云博客

原创 AIGC时代：大模型ChatGPT的技术实现原理、行业实践以及商业变现途径

大数据与人工智能实战专家—周红伟老师法国科学院数据算法博士/曾任猪八戒大数据科学家/曾任马上消费金融风控负责人。

2024-02-02 10:01:18 1321

原创迎接人工智能的下一个时代：ChatGPT的技术实现原理、行业实践以及商业变现途径

S2023年，以ChatGPT为代表的接近人类水平的对话机器人，AIGC不断刷爆网络，其强大的内容生成能力给人们带来了巨大的震撼。学术界和产业界也都形成共识：AIGC绝非昙花一现，其底层技术和产业生态已经形成了新的格局。就内容生产而言，AIGC作为新的生产力引擎，让我们从过去的PGC、UGC，已经不可避免地进入AIGC时代。AIGC代表着AI技术从感知、理解世界到生成、创造世界的跃迁，正推动人工智能迎来下一个时代。经过了2022年的预热，2023年AIGC领域将迎来更大发展。AIGC生成内容的类型不断丰富、

2015-09-21 21:24:20 8466 3

原创部署实战：开源大模型DeepSeek满血版部署实战指南

更重磅的是同步开源的蒸馏模型体系——基于LLaMa/Qwen2.5的1.5B-72B版本，使私有化部署门槛大幅降低。在数学、代码等复杂推理场景中，DeepSeek-v3已实现对GPT-4o的全面超越，而r1版本则与GPT-4o的最新迭代o1形成技术拉锯战。推理成本奇迹：通过混合MoE架构+MTP技术，推理激活参数量压缩至37B，配合FP8精度优化，API定价仅为GPT-4o的1/30。注意：这里的10.0.0.1是主机的ip地址，也就是同一台机器的地址，不要用第二台机器的地址。

2025-02-20 10:08:01 844

原创 30岁AI领袖：创办DeepSeek，开启深度思考模式

梁文峰是30岁AI领袖！　　其中，梁文锋正是头部量化私募幻方量化创始人、DeepSeek的创始人。　　低调的“量化天王”　　梁文锋“发迹”于量化投资。　　作为一名“80后”，梁文锋本科、研究生都就读于浙江大学，拥有信息与电子工程学系本科和硕士学位。　　2008年起，梁文锋就开始带领团队使用机器学习等技术探索全自动量化交易。2015年，幻方量化正式成立，2019年，其资金管理规模就突破百亿元。————————————————

2025-02-11 21:04:31 131

原创 30岁AI领袖：参加总理科技座谈会

不过，就在这一年，由于业绩波动，幻方量化关闭了全部募集通道，并在12月底发布致投资者公开信，致歉称“幻方业绩的回撤达到历史最大值，我们对此深感愧疚”，究其原因，主要是AI的投资决策在买卖时点上没有做好，市场风格剧烈切换的时候，AI会倾向于冒更大的风险来博取更多收益，进一步加大了回撤。幻方量化曾表示，多年以来，该公司坚持把营收的大部分投入人工智能领域，建设领先的AI硬件基础设施，进行大规模的研究，探索人类未知的奥秘，“我们相信几乎所有的创新都是从大胆尝试和点滴积累中孕育而来。

2025-02-11 20:58:43 783

原创《DeepSeek大模型的微调和部署案例实操课程》

大模型算法实战专家—周红伟老师法国科学院数据算法博士/曾任阿里巴巴人工智能专家/曾任马上消费企业风控负责人。

2025-02-11 20:37:46 824 1

原创《DeepSeek核心技术原理和本地部署微调实操课程》

大模型算法实战专家—周红伟老师法国科学院数据算法博士/曾任阿里巴巴人工智能专家/曾任马上消费企业风控负责人。

2025-02-11 20:36:47 653

原创《DeepSeek技术应用与赋能运营商办公提效案例实操落地课程》

本课程将深入探讨DeepSeek的核心技术原理及其在实际工作场景中的应用，通过案例实操帮助学员掌握如何运用DeepSeek工具提升办公效率。：通过多个实操案例，学员将获得针对不同应用场景的实际操作经验，包括如何优化Word和PPT文档，以及运用DeepSeek进行智能运维和市场营销。：学员将学习如何利用DeepSeek工具进行高效的公文写作、数据分析、智能客服系统搭建等，直接提升日常工作的效率和质量。：学员将学习如何利用DeepSeek的智能分析功能，从海量数据中提取有效信息，从而提升决策支持能力。

2025-02-11 20:36:03 741

原创《DeepSeek+Langchain落地实操:RAG知识增强检索和智能体实战开发》

它的设计理念在于简化和加速利用大型语言模型（LLM）和对话模型构建应用程序的过程。这个框架提供了一套全面的工具、组件和接口，旨在简化基于大型语言模型和对话模型的应用程序开发过程。课程全面系统的讲解AI应用开发框架Langchain、LangGraph。法国科学院数据算法博士/曾任阿里人工智能专家/曾任马上消费金融风控负责人。第6章 DeepSeek+Agent+RAG私有知识销售助手。案例实操：DeepSeek+Agent+RAG私有知识销售助手。不同案例选择器应用_长度选择器_相似度选择器_重叠选择器。

2025-02-11 20:35:07 975

原创培训乱象：北京某培训机构在对9名大学生开展托福英语培训时，另对43名高中生开展数学学科培训

依据《中华人民共和国民办教育促进法实施条例》（2021修订）第六十三条第一款第（九）项规定，当事人行为构成了超出办学许可范围的违法情形，鉴于当事人系首次违法且未收取学费、未造成实际危害后果，并在案发后迅速停止了相关违法行为，海淀区市场监管局依法依规对当事人作出责令改正，并给予警告处罚。海淀区市场监管局提示广大家长，在选择校外培训时，要挑选合规的培训机构，了解其证照资质、师资队伍、课程教学及场地设施等是否规范安全，理性参加培训，保护自身合法权益，共同为孩子们的身心健康和成长成才撑起一片蓝天。

2025-01-22 09:40:37 215

原创 30岁AI领袖， DeepSeek 量化巨头幻方创始人梁文锋参加总理座谈会并发言

不过，就在这一年，由于业绩波动，幻方量化关闭了全部募集通道，并在12月底发布致投资者公开信，致歉称“幻方业绩的回撤达到历史最大值，我们对此深感愧疚”，究其原因，主要是AI的投资决策在买卖时点上没有做好，市场风格剧烈切换的时候，AI会倾向于冒更大的风险来博取更多收益，进一步加大了回撤。幻方量化曾表示，多年以来，该公司坚持把营收的大部分投入人工智能领域，建设领先的AI硬件基础设施，进行大规模的研究，探索人类未知的奥秘，“我们相信几乎所有的创新都是从大胆尝试和点滴积累中孕育而来。

2025-01-22 09:37:38 7676 2

原创李想：产品爆款设计工具手册，我是怎么设计爆款产品的秘密！

我常跟公司的同事讲，如果你用了过度冗余的东西，但并不能创造出实际的产品价值，那只是你在自己刷存在感，或者说你跟这家供应商关系好，否则没法解释，为什么你要加一个对用户没有明确价值的功能或者零部件上去。一个人从开始工作，到成家立业，再到生儿育女，赡养老人，不同的人生阶段，需要车来帮助他完成的任务，其实是不一样的。在理想汽车，我们有自己的产品工具PEA，结合自己的产品、业务特性，在产品启动前，就规划清楚的目标和指标，在复盘时，我们可以直接对照PEA中的计划和路径来复盘，这样复盘就有了明确的抓手。

2024-12-25 17:48:27 526

原创【无标题】

coze

2024-12-04 19:57:10 151

原创突发：OpenAI o1颠覆了人类，o1为什么超越了人类，sam万字长文解读

2024 年 9 月 12 日，OpenAI 发布了其最新的人工智能模型——o1（Learning to Reason with LLMs[1]），这是一款经过强化学习训练的大型语言模型，能够执行复杂的推理任务。相比于此前的 GPT-4o（GPT-4o：OpenAI 发布最强人机交互模型，OpenAI 生态布局：GPT-4o 免费或许只是一个开始...，ChatGPT 全新升级：GPT-4o Mini 取代 GPT-3.5，免费、快速、更强大！

2024-09-28 08:19:35 1705

原创突发：Sam万字长文，OpenAI o1超越人类，o1模型训练原理、微调、能力来源-AI已死，大模型当立

北京时间2024年9月13日凌晨，OpenAI正式发布了新的人工智能模型o1（o是orion猎户座，1代表从头再来，也意味着后续将出现更多序列），就是此前OpenAI一直在高调宣传的草莓大模型。OpenAI没有延续使用GPT序列，可见其与传统预训练模型有新的变革性训练方法和功能，o1具备复杂推理能力，解决比目前专业的科学、代码和数学模型所能解决的更难的问题。o1在解决复杂问题时能够进行深入的思考，并通过内部的思考链来逐步解决问题，这在一定程度上模拟了人类的慢思考过程，展示了向AGI迈进的潜力。

2024-09-28 08:14:25 1056

原创突发：Sam Altman指出AI时代已死，ASI超级智能时代来临！

今天，Sam Altman很罕见的在他的个人网站上发布了一篇推文：The Intelligence Age（智能时代）。在这篇文章中，Altman毫不客气地表达了自己对未来社会进步的展望，核心观点我列在这里了：在未来几十年，人类社会终将实现前所未有的进步。借助AI，这种进步还会疯狂加速；未来，AI会成为新的支柱。我们每个人都可以有一个属于自己的AI团队，团队成员将是不同领域的顶尖AI专家。这种超级智能，将会在数千天内实现！AI会创造难以想象的机遇：个性化教育、完善的医疗、协助工作等。

2024-09-27 11:26:31 751

原创 Sam Altman认为人类也许永远无法进入降级智能时代，主要是人类的故步自封造成的

9月23日，Sam Altman发表智能时代长文，表达AI的发展（深度学习的提升、AI即将成为个人助理）将对社会带来前所未来的改变，未来AI对生活工作的融入，人类社会将出现无限繁荣……经过数千年的科学发现和技术进步，人类已经知道如何熔化沙子，添加一些杂质，以惊人的精度在极小的规模上将其排列成计算机芯片，并通过它运行能量，最终得到能够创造出越来越强大的人工智能系统。虽然还有很多细节需要解决，但最主要的是，人工智能将随着规模的扩大而变得更好，将为世界各地人们的生活带来有意义的改善。

2024-09-27 11:21:50 708

原创爆了，Llama 3.5 405B 爆超GPT-4o，参数直接飙到405B,开源终于战胜了闭源大模型GPT-4o

并且 Llama 3.1 405B 在 ZeroSCROLLS/QUALITY 基准测试的得分为 95.2，也意味着其具有强大整合大量文本信息的能力，这些结果表明，LLaMA3.1 405B 模型在处理长文本方面出色，对于关注 LLM 在 RAG 方面性能的 AI 应用开发者来说，可谓是相当友好。而在「我一把把把住了」的拼音标注上，其表现也尚可。简单来说，最新发布的 Llama 3.1 405B 是 Meta 迄今为止最强大的模型，也是全球目前最强大的开源大模型，更是全球最强的大模型。

2024-07-26 16:43:20 1408

原创大模型原理、微调、和部署实战课

周红伟。

2024-07-26 12:14:24 518

原创大模型的微调和部署-周红伟老师

-实验环境，个人或分组环境信息，以及相关操作说明。--Vision Transformer整体架构。--包括使用到的开源大模型，语料集，操作全流程等。--Transformer Encoder模块。--涉及的源码、预训练模型文件和词表文件等下载。--Vision Transformer训练。--Stable Diffusion模型架构。--Patch Embedding层。--“各个击破”VS. “一次到位”--Diffusion Model工作原理。--Transformer核心结构。

2024-07-26 11:55:25 564

原创大模型原理、微调和行业大模型的部署

不仅系统讲解了LLM和ChatGLM4的技术原理, 还通过代码解析和实战项目深度剖析了相关技术在工程落地中的关键环节, 有助于学员全面掌握大模型相关知识和动手实战能力。本课程首先讲述了有关Transformer和大语言模型(LLM)的关键前置知识, 包括注意力机制、多头注意力、编码器-解码器结构等Transformer原理, 以及LLM的文本生成和LLM微调技术原理。- LLM的文本生成策略: 包括贪婪搜索、束搜索、随机采样、温度采样、Top-k采样和Top-p采样等。

2024-07-26 11:53:45 565

原创 AI人才争夺战，马斯克直呼“史上最疯狂”！

开放传神联合创始人兼首席市场官（CMO）张家庆在接受证券时报记者采访时表示，大模型发展已进入深水区，赋能千行百业，这时需要的人才也更加多样化，包括数据处理、模型训练、基于大模型的应用开发等。在传出“xAI从特斯拉挖人”消息后，马斯克发帖解释称，看似是xAI跟特斯拉“抢人”，实质却是Open AI挖角特斯拉，“xAI如果不提供offer，人就被Open AI挖走了。ChatGPT为代表的生成式AI掀起技术热潮，国内头部企业纷纷抢先布局，积极探索生成式AI大模型的赋能边界和应用，催生了对应方向岗位人才的火热。

2024-04-07 11:03:07 489

原创 How to develop Sora

including。

2024-04-03 14:54:45 1193

原创 Sora Replication Solution with 46% Cost Reduction, Sequence Expansion to Nearly a Million

also。

2024-04-03 14:52:42 1059

原创史诗级对话！黄仁勋对谈Transformer八位作者：大模型从何而来，下一步会如何发展？

我已经稍微谈到了生物软件的一些内容，对我个人而言，在 2021 年，我共同创立了 Inceptive，主要是因为意识到这项技术可以对商业生活产生更直接的影响，甚至比之前的广泛应用更为直接。我们相信，如果能够加速代表 99% 运行时间的 1% 代码，那么将获得巨大的好处，可以实现一些之前认为不可能的事情，或者将需要大量金钱或能量的事情变得更加成本效益和节能。是的，你提到的这些早期模型在当时的研究领域确实起到了一定作用，但由于 Transformer 模型的出现，人们可能忘记了它们的存在。是令人兴奋的一步吗？

2024-03-21 20:54:30 1059

原创陈巍：Sora大模型技术精要万字详解（上）——原理、关键技术、模型架构详解与应用

我们将Sora的技术特点划分为输入输出特征、功能特征、时空与角色一致性三类。以往的文生视频算法多数是采用公开训练数据，生成的视频多数不够美观，分辨率低，而且在生成视频的过程中，无法精准体现文本提示的内容，用户的文本提示难以转化为高清高质量视频。当然更大的难点是视频中主角运动不连贯或不自然，在镜头移动的时候，主体边缘容易畸变，特别是人物表情细节的畸变严重影响视频的表达效果。Sora技术特征图示（来源：Data Science Dojo）

2024-03-21 16:16:29 8022

原创微信向量检索分析一体化数仓探索：OLAP For Embedding

万物皆可 Embedding，向量是 AI 理解世界的通用模式 ”：""An embedding is a mapping from discrete objects, such as words, to vectors of real numbers. — Tensorflow 社区可以看到，Embedding 是真实世界中“离散”的实体，映射到“连续”向量空间的一种表示。

2024-03-21 15:58:31 995

原创 Sora底层技术原理：Stable Diffusion运行原理

下图是一个基本的文生图流程，把中间的 Stable Diffusion 结构看成一个黑盒，那黑盒输入是一个文本串“paradise(天堂)、cosmic(广阔的)、beach(海滩)”，利用这项技术，输出了最右边符合输入要求的生成图片，图中产生了蓝天白云和一望无际的广阔海滩。首先，要有一个具有文本串和计算机视觉配对的数据集。注意力模块的作用是，当输入提示词来生成图片时，比如输入 “一匹马在吃草”，由于模型已经能捕捉图文相关性以及文本中的重点信息，当看到 “马”时，注意力机制会重点突出图像“马”的生成；

2024-03-21 15:55:57 1192

原创主流大语言模型的技术原理细节

1.比较 LLaMA、ChatGLM、Falcon 等大语言模型的细节：tokenizer、位置编码、Layer Normalization、激活函数等。2. 大语言模型的分布式训练技术：数据并行、张量模型并行、流水线并行、3D 并行、零冗余优化器 ZeRO、CPU 卸载技术 ZeRo-offload、混合精度训练、激活重计算技术、Flash Attention、Paged Attention。

2024-03-21 15:47:46 846

原创浅析多模态大模型技术路线梳理

模型的整体框架如下所示，我们从下往上看：首先一张图片会经过视觉模块（ViT&Q-Former）进行编码得到一个图像 embedding，由于视觉模块给出的 embedding 不能够直接被语言模型理解，因此一般需要将视觉 embedding 和文本 embedding 进行对齐，这里加入了一个线性层，可以理解为这里假设图片编码器得到的输出经过一个线性层后就能够被语言模型理解了，然后将原始的文本信息和经过对齐后的图像信息拼接起来，送入 LLM，就可以实现能够接受多模态信息的 GPT 了。

2024-03-21 15:47:15 3952

原创 OpenAI Sora文生视频模型技术报告中英全文

我们最大的模型Sora能够生成一分钟的高保真视频。Sora是一种通用的视觉数据模型——它可以生成持续时间、宽高比和分辨率各异的视频和图像，长达一分钟的高清视频。我们将Sora与一个版本的模型进行了比较，该模型将所有训练视频裁剪成正方形，这是训练生成模型时的常见做法。我们在我们的登录页面列举了模型的其他常见故障模式——比如在长时间样本中发展的不连贯性或物体的自发出现。这项能力使得Sora能够执行广泛的图像和视频编辑任务——创建完美循环的视频，为静态图像添加动画，向前或向后延长视频的时间等。

2024-03-21 15:37:30 1017

原创 Sora的前世今生：从文生图到文生视频

然后我们对14x14的特征图做上采样或者反卷积，得到28x28的特征图，这个28x28的特征图与之前的28x28的特征图进行通道上的拼接，然后再对拼接之后的特征图做卷积和上采样，得到56x56的特征图，再与之前的56x56的特征拼接，卷积，再上采样，经过四次上采样可以得到一个与输入图像尺寸相同的224x224的预测结果。为了使得视频的生成连贯，那在VAE编解码的过程自然需要去考虑视频不同帧的关系，原来对图片进行处理相当于考虑的是图片空间上的关系，现在换到视频就是多了时间上的关系，也就是经典的时空。

2024-03-21 15:27:14 462

原创 Vision Transformer（ViT）PyTorch代码全解析

可以看到，如果指定池化方式为'mean'的话，则会对全部token做平均池化，然后全部进行送到mlp中，但是我们可以看到，默认的self.pool='cls'，也就是说默认不会进行平均池化，而是按照ViT的设计只使用cls_token，即x[:, 0]只取第一个token（cls_token）。都是搭建网络时常用的PyTorch包，其中在卷积神经网络的搭建中并不常用的einops和einsum，还不熟悉的读者可以参考博客：einops和einsum：直接操作张量的利器。

2024-03-14 10:25:50 418

原创【图像生成】(四) Diffusion原理 & pytorch代码实例

在第二个公式中，为高斯函数的输出，为高斯函数的输入，而为高斯函数的均值，为高斯函数的方差。推理的时候从随机的初始噪声开始，预测当前噪声的上一个step的正态分布噪声，然后根据采样公式得到反向扩散的均值和方差，最后根据重整化公式计算出上一个step的图像。训练时随机选择step和随机生成正态分布噪声，通过叠加后得到加噪图像，然后将加噪图像和step一起输入进Unet中，得到当前step的预测正态分布噪声，并与真实正态分布噪声计算loss。在噪声微小的前提下，逆向的去噪过程也可以等同于预测高斯噪声。

2024-03-13 22:07:14 1660 2

原创 Diffusion Models 简单代码示例

扩散模型的目标是通过数据在潜在空间（latent space）的扩散过程，学习数据的潜在向量结构(latent structure)，通俗点说，扩散模型学习利用数据逐步变成噪声的过程，学习反向的去噪声过程。你可以从下面两个视频中的解释，理解扩散模型背后的理论和实现。conditional diffusion 模型的代码：与unconditional的不同，conditional diffusion在预测噪音是需要输入标签信息，同时使用unconditional的噪音，进行线性插值，获得用于复原样本的噪音。

2024-03-13 21:53:59 1252 1

空空如也

空空如也