- 博客(76)
- 收藏
- 关注
原创 NVIDIA
最后,他用新款GeForce显卡生动地诠释了这一点:在渲染一个4K屏幕的800万像素时,GPU只精确计算了其中一小部分(约50万),而其余绝大部分像素都是由AI根据已有信息智能填充的,效果却完美无瑕。黄仁勋解释了其中的“飞轮效应”:电子游戏代表了一个潜力巨大的市场,这个市场能够支撑庞大的研发预算,从而催生更先进的技术;这次赌注不仅为后来的AI革命铺平了道路,也奠定了英伟达一个核心的行事准则:永远为未知的可能性创造平台,而不是为已知的应用过度优化。黄仁勋认为,未来最大的变化是许多工作的“苦差事”将趋近于零。
2025-12-23 18:39:41
588
原创 Types and Type classes
type(经验分布)PxaNa∣xn∀a∈XPxanNa∣x∀a∈Xset of types(类型集合)PnPxx∈XnPnPxx∈Xntype class(类型类)对某个特定的类型 (P∈PnP∈Pn),定义TPx∈XnPxPTPx∈XnPxP每个序列 (x)→ 有唯一一个type (P_x);每个 type §→ 对应一个。
2025-10-31 11:14:13
252
原创 CS224N-Lecture01-Word Vectors
并找出它前后一定范围内的上下文词(context words) o = w(t±1), w(t±2)…例如,“banking”的第 7 维可能反映“金融性”,第 19 维可能反映“机构性”,等等。→ 在语料的每个位置 t,取出当前的中心词(center word)记为 c = w(t),:预测它周围的上下文词 w(t−2)、w(t−1)、w(t+1)、w(t+2)。→ 模型计算“在给定中心词 c 的情况下,上下文词 o 出现的概率”,:当前中心词 w(t)(例如 “banking”)。
2025-10-23 22:02:41
483
原创 整数规划经典问题类型
If investment 2 is made, then investment 4 must also be made:it means: if x2=1x_{2}=1x2=1 then x4=1x_4=1x4=1x2≤x4x_{2} \le x_{4}x2≤x4If investment 1 is made, then investment 3 cannot be made,it means: if x1=1x_{1}=1x1=1 then x3=0x_3=0x3=0x1+x3≤
2025-10-11 20:42:03
390
原创 凹凸性-信息论
函数依赖变量凹/凸性质原因HpH(p)Hppxp(x)px凹(concave)混合增加不确定性混合增加不确定性混合增加不确定性Dp‖qD(p‖q)Dp‖qpq(p,q)pq联合 凸(convex)KL散度的凸性定理KL散度的凸性定理KL散度的凸性定理IX;IX;YDpxy‖pxpy))px凹;py∣x凸p(x)凹;p(y|x) 凸px凹;py∣。
2025-10-11 20:39:24
548
原创 Heteroskedasticity
The passage is describing heteroskedasticity, a situation where the variance of the error term ( ϵ\epsilonϵ ) is not constant but depends on the explanatory variable (x).In ordinary regression we usually assume homoskedasticity: (Var(ϵ)=σ2\text{Var}(\epsi
2025-09-28 22:46:15
812
原创 Information theorem-Entropy and mutual information
In information theory and statistics, “surprise” is quantified by self-information. For an event x with probability p(x), the amount of surprise (also called information content) is defined asI(x)=−logp(x)=log1p(x).I(x) = -\log p(x)=\log \frac{1}{p(x)}.I
2025-09-24 13:53:56
1075
原创 Least squares prediction and Indicator Variables
CI: “Where is the average wage for people with 16 years of education likely to be?”PI: “If I pick one random person with 16 years of education, what wage will they likely earn?”Target: The conditional mean μY∣X0=E[Y∣X0]\mu_{Y|X_0} = \mathbb{E}[Y|X_0]μY∣
2025-09-23 16:04:14
670
原创 What is information theory and coding
Source EncoderChannel EncoderModulatorChannel + NoiseDemodulatorChannel DecoderSource DecoderSinkWorks at the information/coding level (bit sequences).Two main types:Source encoder: compresses data into binary (e.g., JPEG, MP3, Huffman coding).Channel enco
2025-09-22 22:07:42
722
原创 Further inference in the multiple linear regression model
Simple null hypothesis → involves a restriction on one sign (<,=,>) only (e.g.H0:β2=0).(e.g. H_0: \beta_2 = 0).(e.g.H0:β2=0).Joint null hypothesis → involves two or more restrictions at the same time (e.g.H0:β2=0, β3=0, β4=0).(e.g.H_0: \beta_2 = 0, \
2025-09-22 18:19:54
1040
原创 Information theorem-Entropy
In information theory and statistics, “surprise” is quantified by self-information. For an event x with probability p(x), the amount of surprise (also called information content) is defined asI(x)=−logp(x)=log1p(x).I(x) = -\log p(x)=\log \frac{1}{p(x)}.I
2025-09-21 16:52:38
1264
原创 Recursion
→ 撤销选择,还原数组,继续尝试别的数字。→ 所有位置确定,保存结果。→ 把候选数字放到当前。→ 继续处理后续位置。spare:空闲的柱子。
2025-09-18 15:45:41
301
原创 Asymptotic Notations
注意:计算机教材的写法 f(n)f(n)f(n)是一个元素,=== 代表属于,O(g(n))O(g(n))O(g(n))是一个集合f(n)=O(g(n)) ⟺ ∃c>0,n0>0, ∀n≥n0, 0≤f(n)≤cg(n).f(n) = O(g(n)) \quad \iff \quad \exists c>0, n_0>0,\ \forall n \geq n_0,\ 0 \leq f(n) \leq c g(n).f(n)=O(g(n))⟺∃c>0,n0>0, ∀n≥n0, 0≤f(n)≤cg(n)
2025-09-17 18:41:00
966
原创 Multiple Regression Model
y~i=yi−yˉ,x~i2=xi2−xˉ2,x~i3=xi3−xˉ3.\tilde{y}_i = y_i - \bar{y}, \quad \tilde{x}_{i2} = x_{i2} - \bar{x}_2, \quad \tilde{x}_{i3} = x_{i3} - \bar{x}_3 .y~i=yi−yˉ,x~i2=xi2−xˉ2,x~i3=xi3−xˉ3.In this model, as in many others, it is important to reco
2025-09-16 17:26:49
1006
原创 Hypothesis testing and Least squares prediction
PI 针对的是未来单个观测值Y0Y_0Y0。Py0−t0.975n−k−1⋅sef≤Y0≤y0t0.975n−k−1⋅sef≈0.95Py0−t0.975n−k−1⋅sef≤Y0≤y0t0.975n−k−1⋅sef≈0.95含义:在固定x0x_0x0的情况下,未来新观测Y0Y_0Y0。
2025-09-15 16:54:21
776
原创 Estimator and Confidence interval
标准差 (SD)衡量数据本身的离散程度。σEX−μ2s1n−1∑xi−xˉ2σEX−μ2sn−11∑xi−xˉ2标准误差 (SE)衡量统计量(比如样本均值、回归系数)在重复抽样下的波动大小。SEXˉsnSEXˉns它是“估计量的标准差”。自由度 = 可以自由变化的数据点个数 = 总数据点数 − 约束条件数。例子:有 n 个数,它们可以完全随意 → 自由度 = n。
2025-09-13 23:15:05
901
原创 Algorithm-Insertion sort, merge sort
递归树的叶子结点指的是递归停止的地方。在归并排序中,递归停止条件是子数组规模 = 1(一个数本身就是有序的)。所以叶子结点对应规模为 1 的子问题。
2025-09-11 17:45:16
1105
原创 SME-OLS
定义:ei=yi−y^ie_i = y_i - \hat{y}_iei=yi−y^iyiy_iyi:第 i 个样本的真实观测值;y^i\hat{y}_iy^i:回归模型给出的预测值;eie_iei:残差(residual),是“真实值 - 预测值”。β1,β2\beta_1, \beta_2β1,β2:总体的真实参数(未知);εi\varepsilon_iεi:随机误差项,捕捉未观测因素和随机性。这是 理想中的经济学/统计学关系,但参数β\betaβ和误差分布我们不知道。形式:Y^i=
2025-09-09 17:39:50
907
原创 SME-Econometrics
实验数据(experimental data)非实验数据(non-experimental / observational data)实验数据:研究者可以主动操控自变量(比如设置不同的处理组/对照组),然后观察因变量的反应。非实验数据:研究者不能操控自变量,只能记录现实中自然发生的数据。实验数据:可以在相同条件下反复试验,保证结果的可验证性。非实验数据:条件不可控,通常不可重复,只能依赖统计方法去控制偏差。the offspring of larger than average size parents t
2025-09-08 11:55:28
1100
原创 进程和线程的区别是什么?
核心观点进程(Process): 是正在执行的程序。一个程序在运行时可以包含一个或多个进程。线程(Thread): 是进程中的一个执行单元。一个进程可以包含一个或多个线程,这些线程共享进程的资源。重要细节类比关系: 通过图示形象地展示了进程和线程的关系:进程像一个大的容器,而线程是容器内部独立运行的单位。多线程: 现代操作系统支持多线程,这使得一个进程可以同时执行多个任务,从而提高效率。实际应用任务管理器: 通过 Windows 的任务管理器,我们可以看到系统中正在运行的程序和相关的进程。
2025-08-31 02:33:17
517
原创 gemini 2.5 flash Image -preview
使用gemini 2.5 flash Image -preview生成模型,整体体验让人印象深刻,尤其是在和方面。首先,最直观的感受是生成速度,比之前用过的GPT-5感觉要迅捷不少,几乎是瞬间出图,大大提升了创作效率。其次,在图像质量上,这款模型对尤为出色。它能精准捕捉复杂的光影变化,让人物面部和环境阴影看起来非常自然且富有层次感,大大增强了图像的真实感和艺术性。在不同平台的使用体验上,无论是AI Studio还是Web端,我感觉。
2025-08-28 10:12:28
522
原创 机器学习-Regression
作业的 baseline 中看到 loss 在训练过程中不收敛,甚至来回震荡,通常是由以下几个核心原因造成的,其中是最常见的主谋。
2025-08-26 08:31:24
777
原创 机器学习-大语言模型Finetuning vs. Prompting
通才”不是指Prompt把模型变成了通才,而是指模型本身已经被训练成了一个“通才”。它在海量数据中学习了语言、逻辑、知识和多种技能的潜在模式。Prompt的作用是“激活”和“引导”。它像一个开关或一个指令,告诉这个强大的通才模型:“嘿,现在请启动你的‘翻译’技能”或者“现在请启动你的‘创意写作’技能”。
2025-08-25 10:40:55
1350
2
原创 Why Some Software Is Written in Multiple Languages
你是否曾好奇,为什么一个软件项目有时会“混搭”使用多种编程语言?这背后其实蕴含着现代软件工程中关于性能、协作与代码复用的深刻智慧。本文将带你深入了解这背后的技术原理。对于我们熟悉的网站和应用,例如使用Django这类全栈框架构建的项目,其本身就是多语言协作的典型。后端逻辑可能由Python处理,而用户直接交互的前端界面则由HTML、CSS和JavaScript构建。这两部分作为独立的进程,通过网络请求等方式进行通信,各自安好。
2025-08-25 07:00:04
792
原创 bi-gram项目拆解
在 NLP 或分类任务中,我们常常需要把离散的类别(如字符、单词、标签)转换成向量。如果类别数是 VV,那么 one-hot 向量就是长度为 VV 的向量:只有该类别对应的位置是 1其它位置全是 0。例子:词表大小 V=5V=5,假设类别是2。
2025-08-23 00:26:47
605
原创 DataWhale夏令营-AI超级个体
无需代码基础,通过轻松搭建个人网站、设计海报、制作播客;Coze(国内叫“扣子”)是字节跳动推出的一个。它本质上不是单一的大模型,而是一个“平台化工具”,提供可视化的工作流、插件接口、知识库(RAG)、长期记忆等能力,让用户(即使不懂代码)也能快速创建和部署自己的 AI 聊天机器人或任务型智能体。:像搭积木一样配置逻辑,不需要自己训练模型,就能做问答机器人、助手、客服、游戏 NPC 等。:可以上传文档或数据,给 Bot 提供专属知识,适合企业 FAQ、教育培训等场景。
2025-08-20 12:19:09
328
原创 机器学习概念(面试题库)
定义:模型太简单,无法捕捉数据的潜在规律,在训练集和测试集上表现都不好。表现:训练误差高,测试误差也高。例子:用线性模型去拟合高度非线性的数据。
2025-08-19 18:49:28
852
原创 反向传播-micrograd
神经网络的本质: 它们是可微调的复杂数学表达式。训练的本质: 通过梯度下降算法,找到一组最优的参数(权重和偏置),使得损失函数最小化。核心引擎反向传播是高效计算梯度的关键,它使得在巨大的参数空间中进行梯度下降成为可能。Micrograd 与 PyTorch: Micrograd 的API设计与PyTorch高度相似,理解了Micrograd的原理,就能更好地理解PyTorch等工业级框架的内部工作机制。**
2025-08-18 05:05:52
361
原创 上下文工程(Context Engineering)
熟练地运用“写入、选取、压缩、隔离”这四大策略,将是区分一个AI应用是有趣的玩具,还是一个可靠、可规模化产品的关键。最终,无论是精巧的提示词、高效的RAG系统,还是标准化的模型交互协议(MCP),它们都服务于同一个终极目标:在模型做出决策之前,为它准备好一份恰到好处的上下文。这好比一个多Agent系统,每个子Agent在各自领域内并行工作,消化原始信息,然后将压缩后的洞见提交给主Agent,从而极大减轻主Agent的认知负担。:在每次调用模型前,从所有可用的信息源中,动态地拉取与当前子任务最相关的信息。
2025-08-16 05:15:09
777
原创 Leetcode-138. 复制带随机指针的链表
首先创建一个哈希表,再遍历原链表,遍历的同时再不断创建新节点。这样,新链表的节点之间关系和原链表完全一致,但对象是全新的。是原链表的当前节点(原节点对象)(原节点随机指向对应的新节点),所以这些新节点是“孤立点”(下一个原节点对应的新节点)我们用哈希表来解决这个问题。(一个新建节点对象的引用)
2025-08-12 22:35:54
339
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅