- 博客(2093)
- 资源 (39)
- 收藏
- 关注

原创 2025年重磅喜讯!热烈祝贺Gavin大咖大模型领域经典著作《Transformer& Rasa 解密 原理、 源码及案例 》 北京航空航天大学出版社发行上市!
自2016年3月,阿尔法狗战胜人类围棋高手以来,人工智能技术取得了空前的成就,引领着人类社会进入了一个全新的时代。2017年7月,国务院正式发布了《新一代人工智能发展规划》,将人工智能发展明确为国家战略,为我国在这一领域的发展指明了方向。2023年2月,国务院发布了《数字中国建设整体布局规划》,提出到2025年,我们将基本形成横向打通、纵向贯通、协调有力的一体化推进格局,数字中国建设取得重要进展。到2035年,我们的数字化发展水平将进入世界前列,数字中国建设取得重大成就。
2025-01-26 19:00:00
1618

原创 2024年重磅喜讯!热烈祝贺Gavin大咖大模型领域经典著作《Transformer&ChatGPT解密:原理、源码及案例》 北京航空航天大学出版社发行上市!
2024年重磅喜讯!热烈祝贺Gavin大咖大模型领域经典著作《Transformer&ChatGPT解密:原理、源码及案例》 北京航空航天大学出版社发行上市!
2024-06-09 10:42:22
442

原创 2020年重磅喜讯!热烈祝贺王家林大咖人工智能及大数据领域经典著作《Apache Spark+AI全息代码解密》清华大学出版社发行上市!
2020年重磅喜讯!热烈祝贺王家林大咖人工智能及大数据领域经典著作《Apache Spark+AI全息代码解密》清华大学出版社发行上市!目录全息代码解密编辑推荐内容简介作者简介本书目录前言新书链接全息代码解密Apache Spark+AI全息代码解密(京东套装共2册)你需要的Apache Spark和AI技能都在这里!全程案例驱动无痛学习,动手创造自己AI框架,解密Alluxio, 抽丝剥茧学习Spark内核所有关键源码及实践优化的一切秘密https://item.jd.com/1302908
2020-12-12 09:52:10
1418
8

原创 2020年重磅喜讯!热烈祝贺王家林大咖人工智能领域经典著作《企业级AI技术内幕:深度学习框架开发+机器学习案例实战+Alluxio解密》 清华大学出版社发行上市!
2020年重磅喜讯!热烈祝贺王家林大咖人工智能领域经典著作《企业级AI技术内幕:深度学习框架开发+机器学习案例实战+Alluxio解密》 清华大学出版社发行上市!目录大咖心声新书图片内容简介作者简介目录前言/序言新书案例案例一:自研盘古人工智能框架案例二:基于Pytorch的自然语言处理模型(BERT)的应用案例案例三:人力资源主管正确评估新招聘员工薪水的案例案例四: 基于Alluxio+Pytorch的深度学习案例案例五:Spark+AI实战案例新书网购链接新书资讯大咖心声数据象征空间AI代理时间
2020-10-31 08:54:56
2609
2

原创 2020年重磅喜讯!热烈祝贺王家林大咖大数据经典传奇著作《Spark大数据商业实战三部曲》 畅销书籍第二版 清华大学出版社发行上市! 前浪致 Spark + AI 后浪
王家林大咖清华大学新书Spark第二版已上市:致 Spark + AI 初学者前言新书介绍编辑推荐内容简介作者简介精彩章节新书目录第二版前言第一版前言Spark+AI学习路径献给Spark+AI的“后浪”新书案例讲解第二版网购链接新书资讯前言欢迎来到清华大学出版社《Spark 大数据商业实战三部曲:内核解密|商业案例|性能调优(第2 版)》新书博客!关注到Spark新书发布的每一位同学,应该是学习了很多大数据的基础知识,学习了很多人工智能的技术资料,正在寻求进一步的自我成长。在学习过程中,一定是遇到了很
2020-05-25 11:08:23
1998
1

原创 2020年重磅喜讯!热烈祝贺王家林大咖大数据经典传奇著作《Spark大数据商业实战三部曲》 畅销书籍第二版 清华大学出版社发行上市!
《Spark大数据商业实战三部曲》第二版购书链接:https://item.jd.com/12864870.html
2020-05-22 16:27:07
1329
3

原创 2018年新春报喜!热烈祝贺王家林大咖大数据经典传奇著作《SPARK大数据商业实战三部曲》 畅销书籍 清华大学出版社发行上市!
2018年新春报喜!热烈祝贺王家林大咖大数据经典传奇著作《SPARK大数据商业实战三部曲》畅销书籍 清华大学出版社发行上市!本书基于Spark 2.2.0新版本,以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心,以Spark内核解密为基石,分为上篇、中篇、下篇,对企业生产环境下的Spark商业案例与性能调优抽丝剥茧地进行剖析。上篇基于Spark源码,从一个动手...
2018-02-13 19:47:15
7281
3
原创 解锁AI潜能:模型上下文协议(MCP)的革新与应用
MCP的架构设计简洁高效。以编程领域为例,集成MCP后,AI智能体能够更好地检索相关信息,理解编程任务的上下文,减少尝试次数,编写出更细致、更实用的代码。在这个开放的社区里,大家共同努力,有望推动上下文感知AI走向新的高度,让AI更好地服务于社会,创造更多价值。在以往,每接入一个新的数据源,开发者都需进行定制化开发,这种碎片化的集成方式不仅耗费大量时间和精力,而且难以实现大规模扩展。MCP的出现,彻底改变了这一局面,它提供了统一的标准,让开发者能够以更简单、可靠的方式为AI系统提供所需数据。
2025-03-31 21:32:50
52
原创 DeepSeek 专家负载均衡器(Expert Parallelism Load Balancer (EPLB)
DeepSeek 专家负载均衡器(Expert Parallelism Load Balancer (EPLB)当使用专家并行(EP)时,不同的专家被分配到不同的GPU。由于不同专家的负载可能会因当前工作负载而异,因此保持不同GPU的负载平衡非常重要。正如DeepSeek-V3论文中所描述的,采用冗余专家策略,复制重载专家。然后,将重复的专家打包到GPU上,以确保不同GPU之间的负载平衡。
2025-02-27 12:50:04
162
原创 DeepSeek-R1:模型部署与应用实践
DeepSeek-R1是一个基于Transformer架构的因果语言模型,它在预训练阶段学习了大量的文本数据,从而具备了理解和生成自然语言的能力。与其他模型相比,DeepSeek-R1在处理长文本、语义理解和生成质量上具有独特的优势,尤其适用于对话系统、文本生成等任务。通过以上步骤,成功部署了DeepSeek-R1模型,并实现了一个简单的对话系统。在实际应用中,还可以进一步优化模型的性能,例如调整超参数、使用更高效的硬件等。
2025-02-24 19:30:00
56
原创 构建医疗Mini DeepSeek R1:用强化学习训练
在当今快速发展的技术时代,大语言模型(LLMs)与医疗的结合带来了无限的机遇和独特的挑战。本文探索如何利用 Group Relative Policy Optimization(GRPO)——由 DeepSeek 团队最近引入的有前景的强化学习技术,来调整阿里巴巴的 Qwen-3B 模型,使其能够进行医疗推理。
2025-02-21 19:00:00
100
原创 DeepSeek的AHA 时刻 使用 Unsloth(GRPO)训练自己的 R1 推理模型
2025 年 2 月 6 日,由丹尼尔迈克尔带来的消息,迎来了名为 Unsloth 的推理新方法。DeepSeek 的 R1 研究中有一个“啊哈时刻”,R1 - Zero 通过组相对策略优化(GRPO)在没有人类反馈的情况下自主学习,分配更多的思考时间。并且,我们对整个 GRPO 过程进行了增强,使其使用的 VRAM 比Hugging Face + FA2. 少 80%,这意味着 可以使用 Qwen2.5(1.5B)在仅 7 GB 的 VRAM 上重现 R1 - Zero 的“啊哈时刻”。
2025-02-18 19:00:00
254
原创 DeepSeek - R1:模型架构深度解析
为了清楚理解MoE是什么,首先让我们看看它在Transformer中的确切使用位置以及其简要架构。标准Transformer层中的FFN被MoE所取代。MoE的核心是遵循标准的Transformer设计,但通过引入多个并行的专家网络(FFN)而不是单个密集的FFN来修改前馈层。多个FFN而非一个:MoE使用多个并行训练的FFN层(专家),而不是单个共享的FFN。输入处理和标记路由。
2025-02-17 19:15:00
1211
原创 2024博客之星评选,欢迎大家投票 https://www.youkuaiyun.com/blogstar2024/detail/176
进入投票页面,为我投上您宝贵的一票。未来我会更加努力,为大家带来更多优质的技术博客和丰富的学习资源。各位 小伙伴们,大家好!我是段智华,很荣幸能参与到 2024 博客之星的评选当中。请大家动动手指,点击链接👉。
2025-02-14 12:29:52
339
2
原创 动手学图神经网络(12):MovieLens上的链接回归
在MovieLens数据集上进行评分预测的实践过程,包括数据处理、模型构建、训练以及评估等步骤,预测用户对电影的评分(即边的属性值)。
2025-02-07 19:15:00
210
原创 动手学图神经网络(11):使用MovieLens数据集进行链路预测的实践
将用户的评分数据拆分为训练集、验证集和测试集。这是为了确保在训练阶段不会泄露任何关于评估阶段所使用边的信息。为此,使用了 PyG 中的 transforms.RandomLinkSplit 变换。此变换将 (“user”, “rates”, “movie”) 中的边随机划分为训练边、验证边和测试边。disjoint_train_ratio 参数进一步将训练拆分中的边分为用于消息传递的边(edge_index)和用于监督的边(edge_label_index)。
2025-02-06 20:45:00
208
原创 动手学图神经网络(10):利用 PyTorch Geometric 进行图分类
本文将详细介绍如何使用 PyTorch Geometric 库进行图分类任务,同时结合 Weights & Biases(W&B)工具对实验进行跟踪和可视化。
2025-02-06 20:30:00
279
原创 动手学图神经网络(9):利用图神经网络进行节点分类 Weights&Biases
使用Cora数据集,这是一个引用网络,节点代表文档,每个节点由一个 1433 维的词袋特征向量描述。两个文档之间如果存在引用链接,则它们之间有边相连。任务是推断每个文档的类别(共 7 类)。print():')len')')')print()')').2f')sum')intsum.2f')')')这个数据集有 2708 个节点和 10556 条边,平均节点度为 3.9。用于训练的节点只有 140 个(每个类别 20 个),训练节点标签率仅为 5%。
2025-02-06 19:30:00
263
原创 动手学图神经网络(8):在消息传递中定制聚合操作
定义一个简单的run函数来训练GNN模型。for sub_data in train_loader: # 遍历每个小批次optimizer.zero_grad() # 清除梯度sub_data.edge_index) # 执行一次前向传播) # 仅基于训练节点计算损失loss.backward() # 推导梯度optimizer.step() # 根据梯度更新参数pred = out.argmax(dim=1) # 使用概率最高的类别accs = []mask] # 与真实标签进行对比。
2025-01-27 20:15:00
276
原创 动手学图神经网络(7):使用Captum解释GNN模型预测结果
随着模型复杂度的增加以及由此导致的透明度缺失,模型可解释性方法变得愈发重要。模型理解既是一个活跃的研究领域,也是各行业应用机器学习时实际关注的重点领域。Captum提供了诸如积分梯度、概念激活向量测试(TCAV)、TracIn影响函数等前沿算法 ,这些算法为研究人员和开发人员提供了一种简便方法,以了解哪些特征、训练示例或概念对模型的预测有贡献,以及总体而言,模型学习的内容和方式。除此之外,Captum还提供对抗攻击和最小输入扰动功能,这些功能可用于生成反事实解释和对抗性扰动。Captum帮助机器学习研究人员
2025-01-27 19:45:00
96
原创 动手学图神经网络(6):利用图神经网络进行点云分类
大家使用 PyTorch Geometric 提供的数据集,该数据集包含 40 种不同的二维和三维几何形状,如立方体、球体和金字塔等。每种形状有两个不同的版本,一个用于训练神经网络,另一个用于评估其性能。每个对象表示为一个网格(mesh),其中pos存储顶点信息,face存储顶点的三角连接信息(形状为GeometricShapes(40):表示这是 GeometricShapes 数据集,该数据集包含 40 种不同的几何形状。
2025-01-27 19:30:00
151
原创 动手学图神经网络(5):使用Cluster - GCN方法来扩展GNNs
Cluster - GCN的优点之一是它不会使GNN模型的实现复杂化。return x这段代码定义了一个简单的GCN模型,包含两个卷积层。在初始化函数中,定义了两个GCNConv层,分别用于将输入特征映射到隐藏层和将隐藏层映射到输出类别。在forward函数中,依次进行卷积、激活、Dropout和 卷积操作,返回预测结果。
2025-01-26 22:30:00
166
原创 动手学图神经网络(4):利用图神经网络进行图分类
图分类中最常见的任务是分子属性预测,其中分子被表示为图,任务可能是推断分子是否抑制 病毒复制。大家使用 TU Dortmund University 收集的TUDatasets中的MUTAG 数据集,可以通过 PyTorch Geometric 的访问。print()
2025-01-26 21:45:00
536
2
原创 动手学图神经网络(3):利用图神经网络进行节点分类 从理论到实践
大家选用Cora数据集来开展节点分类任务。这是一个引用网络,节点代表文档,每个节点由一个 1433 维的词袋特征向量描述。若两篇文档之间存在引用关系,则它们相互连接。任务是推断每个文档所属的类别,一共有 7 个类别。print()
2025-01-26 21:30:00
496
原创 动手学图神经网络(2):跆拳道俱乐部案例实战
图神经网络(GNNs)旨在将经典深度学习概念推广到不规则结构数据(与图像或文本不同),使神经网络能够推理对象及其关系。遵循简单的神经消息传递方案,在图GVEGVE中,所有节点v∈Vv∈V的节点特征xvℓxvℓ通过聚合其邻居NvNvxvℓ1fθℓ1xvℓxwℓw∈Nvxvℓ1fθℓ1xvℓxwℓw∈Nv本教程将基于PyTorch Geometric (PyG) 库。
2025-01-26 21:00:00
126
原创 图神经网络学习(1)- 安装部署指南
图神经网络(Graph Neural Networks,GNNs)近年来在处理图结构方面 ,广泛应用于社交网络分析、分子结构预测、推荐系统等领域。本文将详细介绍如何在本地环境中安装和部署图神经网络的相关库。
2025-01-26 20:30:00
215
原创 博客之星2024年度总评选年度创作历程回顾
2024年,我在技术领域成果颇丰。博客方面,完成218篇,特别是LlaMA 2/3系列,深入研究并分享了LlaMA 2/3模型原理与应用。参与编写并出版了两本关于Transformer与ChatGPT、Rasa的书籍。在论文方面,发表了10多篇国际论文,探索大语言模型等前沿技术。课程分享方面,讲解了LangGraph入门与实战以及提升大模型智能体Agent推理能力的课程,助力学员成长。
2025-01-19 20:53:59
906
转载 通义千问智能体初体验
阿里发布 Qwen-Agent 框架,赋能开发者构建复杂 AI 智能体。Qwen-Agent框架不仅是一个开发工具,更是一个全面的智能体构建平台,依托于阿里Qwen的现有语言模型,显著增强了智能体的指令遵循、工具使用、任务规划和对话上下文维护能力。框架内置了多种应用示例,包括浏览器助手、代码解释器和自定义助手,开发者可以直接在这些基础之上进行扩展和创新。
2025-01-06 19:45:00
597
原创 AutoGen-AI Agentic Design Patterns with Autogen
【代码】AutoGen-AI Agentic Design Patterns with Autogen。
2024-12-25 20:00:00
417
原创 使用Amazon Bedrock的无服务器的智能工作流
智能工作流基于用户输入处理不可预见的任务,比如发起API调用。无服务器架构可以高效地管理这些任务和不同的工作负载,而无需维护服务器,从而加快部署速度。你将学习如何通过使用带有保护措施的智能代理,保护敏感信息并防止客户接触有害内容。本课程将教你如何构建和部署一个无服务器的智能应用程序。你将学习如何使用工具、代码执行和保护措施创建智能代理。无服务器设置非常适合那些需要按需访问多个工具或API的智能代理。
2024-12-24 20:00:00
535
原创 使用LangGraph中断构建人在回路代理
代理(agents)的能力日益增强,在构建代理时,保持人在回路(human-in-the-loop)变得至关重要。Replit公司总裁Michele Catasta在炉边谈话中, 多次强调了人类参与在代理设计中的重要性。从一开始,LangGraph公司将这一理念融入了LangGraph的设计中,这也是许多公司选择在LangGraph上构建代理的关键原因之一。
2024-12-20 09:34:39
363
原创 深入解析LLaMA:原理讲解与架构实现
在自然语言处理(NLP)领域, 大语言模型(LLMs)已经成为推动技术进步的关键力量。LLaMA(Large Language Model Meta AI)是Meta AI推出的一款高效且性能卓越的 大语言模型。本文将深入探讨LLaMA模型的架构,以帮助读者更好地理解其设计原理和工作机制。
2024-11-10 19:48:14
1321
原创 Llama3.1-8B-Instruct 本地部署安装测试指南
在本文中,将一步步指导你如何在本地环境中部署和测试 Llama3.1-8B-Instruct模型。Llama 3.2:Llama 3.2多语言大型语言模型(LLM)集合是1B和3B大小(文本输入/文本输出)的预训练和指令调整生成模型的集合。Llama 3.2视觉:Llama 3.2-Vision集合的多模态大型语言模型(LLM)是一个预先训练和调整的图像推理生成模型的集合,大小为11B和90 B(文本+图像输入/文本输出)Llama 3.1:一组预训练和微调的文本模型,大小从80亿到4050亿,在大约15万
2024-10-25 19:15:00
3593
原创 探索Mem0:下一代人工智能与机器学习内存管理基础设施(一)
探索Mem0:下一代人工智能与机器学习内存管理基础设施(一)Mem 0(发音为“mem-zero”)通过智能记忆层增强AI助手和代理,实现个性化的AI交互。Mem 0会记住用户偏好,适应个人需求,并随着时间的推移不断改进,使其成为客户支持聊天机器人,AI助手和自治系统的理想选择。
2024-09-06 19:30:00
2016
原创 探索Mem0:下一代人工智能与机器学习内存管理基础设施(二)Mem0+Ollama 部署运行
探索Mem0:下一代人工智能与机器学习内存管理基础设施(二)Mem 0(发音为“mem-zero”)通过智能记忆层增强AI助手和代理,实现个性化的AI交互。Mem 0会记住用户偏好,适应个人需求,并随着时间的推移不断改进,使其成为客户支持聊天机器人,AI助手和自治系统的理想选择。通过pip安装Mem0包:基本用法Mem 0需要一个LLM才能运行,OpenAI的gpt-4o是默认值。但是,它支持各种LLM;有关详细信息,请参阅 LLM文档第一步是实例化内存:可以对内存执行以下任务:添加:存储任何
2024-09-06 19:30:00
820
Rasa对话机器人Debugging项目实战之电商零售、银行金融、保险行业、教育领域对话机器人第121课-第128课学习笔记
2022-04-21
Rasa对话机器人连载十二 第124课:Rasa对话机器人Debugging项目实战之保险行业调试全程实战解密(三).rar
2022-04-21
Rasa对话机器人连载十九 第126课:Rasa对话机器人Debugging项目实战之教育领域项目调试 解密(二).pdf
2022-04-21
Rasa对话机器人连载十三 第124课:Rasa对话机器人Debugging项目实战之保险行业调试全程实战解密(四).pdf
2022-04-21
Rasa对话机器人连载七 第122课:Rasa对话机器人Debugging项目实战之银行金融对话机器人全生命周期调试实战-(三)
2022-04-21
Rasa对话机器人连载四 第121课:Rasa对话机器人Debugging项目实战之电商零售对话机器人运行流程调试全程演示-4
2022-04-21
Rasa对话机器人连载二 第121课:Rasa对话机器人Debugging项目实战之电商零售对话机器人运行流程调试全程演示-2
2022-04-20
Rasa对话机器人连载一 第121课:Rasa对话机器人Debugging项目实战之电商零售对话机器人运行流程调试全程演示-1
2022-04-20
第123课:Rasa对话机器人Debugging项目实战之图解银行金融案例架构视角下的Training及Reference全生命
2022-04-08
第122课:Rasa对话机器人Debugging项目实战之银行金融对话机器人全生命周期调试实战
2022-03-29
第121课:Rasa对话机器人Debugging项目实战之电商零售对话机器人运行流程调试全程演示
2022-03-29
第121课:Rasa对话机器人Debugging项目实战之电商零售对话机器人运行流程调试全程演示-4
2022-03-20
第121课:Rasa对话机器人Debugging项目实战之电商零售对话机器人运行流程调试全程演示-1
2022-03-20
fr-en.tgz https://www.statmt.org/ europarl/v7/fr-en.tgz
2021-09-26
tensorflow-1.15.0-cp36-cp36m-win_amd64.whl
2020-09-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人