- 博客(14)
- 收藏
- 关注
原创 vllm学习笔记之调度器/抢占/分块预填充(scheduler/preempt/chunked prefill)
为了应对以上场景,vllm中设计了chunked prefill方案,目标是将一个长prefill拆分成多个小块(chunk)处理,每个chunk处理完成后,scheduler有机会插入其他decode和prefill请求或者并行处理其他的chunk。engine_step: vLLM 异步引擎的 单步调度执行器,负责从请求队列获取新请求、处理被中止的请求、调用模型进行前向计算(prefill/decode),并将输出分发到对应的请求流,同时返回当前 pipeline 是否还有未完成请求。
2025-11-13 21:32:55
658
原创 使用MCP构建AI Apps 《MCP: Build Rich-Context AI Apps with Anthropic》
吴恩达老师新推出一门免费 MCP 学习短课程《MCP: Build Rich-Context AI Apps with Anthropic》由 Anthropic 技术教育负责人 Elie Schoppik 主讲,将教我们如何使用 MCP 标准化 LLM 与外部工具、数据、提示词的连接方式。通过实践项目强化学习,包括构建 MCP 聊天助手、创建 MCP 服务器、连接第三方参考服务器等,帮助我们掌握这一标准化协议的应用能力。
2025-10-22 20:20:18
654
原创 行业观察 Jonathan Ross: OpenAI和Anthropic将会构建自己的芯片,并且英伟达会达到10万亿美元市值吗?
AI芯片公司Groq创始人Jonathan Ross分享对AI行业发展的见解。他认为当前AI投资类似早期石油勘探,虽回报不均但潜力巨大,巨头持续投入以保持领先地位。AI已显著提升效率,如vibe coding大幅缩短开发时间。算力是AI发展的关键瓶颈,速度直接影响用户体验和商业价值。能源与芯片供应决定国家AI竞争力,美国在芯片上有优势,中国在能源方面突出。AI不会导致失业,反而会创造新岗位并提高生产力。OpenAI等公司仍被低估,其价值在于解决实际问题而非短期竞争。AI未来将依赖算力提升与能源供应
2025-10-16 00:45:24
927
原创 Deep Dive into LLMs like ChatGPT 学习笔记
这篇文章介绍了大语言模型的基础概念和训练过程。预训练阶段使用海量数据(如15万亿token的FineWeb数据集),通过预测下一个token来调整神经网络权重。推理时模型基于训练数据生成新内容。文章以GPT-2(16亿参数)和Llama3(4050亿参数)为例,说明现代模型训练效率提升的原因。还讨论了基础模型的特点、后训练优化、幻觉问题解决方法,以及强化学习在模型训练中的应用(如Deepseek-R1)。最后指出模型在拼写、计数等方面的局限性,并强调好的答案应包含推理过程而非直接猜测。
2025-10-14 23:09:25
617
原创 从零构建大模型 Build a large language model from scratch by Sebastian Raschka 阅读笔记
本文介绍了大模型的核心技术,包括文本数据处理、注意力机制和GPT模型实现。文本预处理将离散符号转化为连续向量嵌入,使神经网络可处理。注意力机制通过查询、键、值矩阵计算上下文相关性,采用多头设计和因果掩码提升性能。GPT模型实现展示了架构细节,包括嵌入层、层归一化和残差连接等关键技术。
2025-10-14 22:47:31
1369
6
原创 ICLR2017文章:使用一个噪声适应层训练标签有噪声的深度神经网络
文章标题:TRAINING DEEP NEURAL-NETWORKS USING A NOISE ADAPTATION LAYER, Jacob Goldberger & Ehud Ben-Reuven Engineering Faculty, Bar-Ilan University
2018-11-22 15:23:30
2732
原创 tensorflow安装问题:illegal instruction (core dumped)
在ubuntu上安装tensorflow后测试 代码 import tensorflow as tf出现错误:illegal instruction (core dumped) 这是因为对应python2.7 的 tensorflow版本过高。 我在pycharm编译器里安装,选择1.7.0版本。 更改方法是退回1.2.0版本。(我随机试了这个可行)最初安装的是0.5版本,没有问题,...
2018-03-30 20:41:32
5776
原创 空谱结合多标准的主动学习用于高光谱分类
摘要阶段1首先使用PCA降维,然后使用形态学的腐蚀膨胀方法获取一系列图像;阶段2引入了一种新的基于uncertainty、diversity和聚类假设的query function,使用主动学习。介绍降维解决了维度灾难的问题; 解决样本数目不够的两种方法:主动学习和半监督学习。其中主动学习的核心在于query function的选择,主流的两种选择方法,一是选取信息量最大的一个样...
2018-03-27 16:51:00
882
1
原创 结合主动学习和半监督的高光谱分类
摘要 解决高光谱图像中样本不足的两种途径有主动学习和半监督学习。前者提高样本的质量,后者试图提高样本数量。 代表信息:有监督的聚类结果获取未标记样本的重要的结构信息。结合主动学习,结合判别信息(SVM分类器)。介绍主动学习:考察未标记数据,选择信息量最大的(most informative)的样本加入下一次迭代。选中的样本标记后加入L集(labeled),并从U集(unlabeled)...
2018-03-25 20:04:23
2361
6
原创 主动深度学习用于高光谱图像分类
文献Active Deep Learning for Classification of Hyperspectral Images了解知识: RBM 受限波尔茨曼机:https://zhuanlan.zhihu.com/p/24989699 提取数据特征,有点像自动编码器。一类具有两层结构的、对称链接无自反馈的随机神经网络模型(一种特殊的马尔科夫随机场)。什么是主动学习? 在某些情况...
2018-03-24 13:24:01
5015
翻译 高光谱图像中的目标探测(三) | 正交子空间投影和CEM方法(约束能量最小化)的比较研究
本文比较研究了HSI中用于检测和分类的两个经典算法:Orthogonal subspace projection (OSP) 和 Constrained energy minimization (CEM)算法。1. 介绍线性解混通过将一个HSI中的像素表示为有限个端元的线性组合进行检测和分类。解混像元并找到端元对应的丰度值。有几种方法:奇异值分解(SVD)、子空间投影、最大似然法等等。
2017-03-20 22:10:14
5100
原创 高光谱图像中的目标检测(二)| 稀疏表示与学习字典
本文介绍一种利用学习字典稀疏表示HSI(Hyperspectral Imagery)数据进行高光谱图像目标检测的算法。主要应用于对full-pixel target的检测。主要内容有稀疏表示、学习字典的概念、两种用于目标检测的模型和一种获取背景字典的方法。
2017-03-13 22:44:10
8406
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅