多鸠鱼-优快云博客

原创 NVIDIA

最后，他用新款GeForce显卡生动地诠释了这一点：在渲染一个4K屏幕的800万像素时，GPU只精确计算了其中一小部分（约50万），而其余绝大部分像素都是由AI根据已有信息智能填充的，效果却完美无瑕。黄仁勋解释了其中的“飞轮效应”：电子游戏代表了一个潜力巨大的市场，这个市场能够支撑庞大的研发预算，从而催生更先进的技术；这次赌注不仅为后来的AI革命铺平了道路，也奠定了英伟达一个核心的行事准则：永远为未知的可能性创造平台，而不是为已知的应用过度优化。黄仁勋认为，未来最大的变化是许多工作的“苦差事”将趋近于零。

2025-12-23 18:39:41 588

原创 Types and Type classes

type（经验分布）PxaNa∣xn∀a∈XPxanNa∣x∀a∈Xset of types（类型集合）PnPxx∈XnPnPxx∈Xntype class（类型类）对某个特定的类型 (P∈PnP∈Pn)，定义TPx∈XnPxPTPx∈XnPxP每个序列 (x)→ 有唯一一个type (P_x)；每个 type §→ 对应一个。

2025-10-31 11:14:13 252

原创 CS224N-Lecture01-Word Vectors

并找出它前后一定范围内的上下文词（context words） o = w(t±1), w(t±2)…例如，“banking”的第 7 维可能反映“金融性”，第 19 维可能反映“机构性”，等等。→ 在语料的每个位置 t，取出当前的中心词（center word）记为 c = w(t)，：预测它周围的上下文词 w(t−2)、w(t−1)、w(t+1)、w(t+2)。→ 模型计算“在给定中心词 c 的情况下，上下文词 o 出现的概率”，：当前中心词 w(t)（例如 “banking”）。

2025-10-23 22:02:41 483

原创整数规划经典问题类型

If investment 2 is made, then investment 4 must also be made：it means: if x2=1x_{2}=1x2=1 then x4=1x_4=1x4=1x2≤x4x_{2} \le x_{4}x2≤x4If investment 1 is made, then investment 3 cannot be made,it means: if x1=1x_{1}=1x1=1 then x3=0x_3=0x3=0x1+x3≤

2025-10-11 20:42:03 390

原创凹凸性-信息论

函数依赖变量凹/凸性质原因HpH(p)Hppxp(x)px凹(concave)混合增加不确定性混合增加不确定性混合增加不确定性Dp‖qD(p‖q)Dp‖qpq(p,q)pq联合凸(convex)KL散度的凸性定理KL散度的凸性定理KL散度的凸性定理IX;IX;YDpxy‖pxpy))px凹；py∣x凸p(x)凹；p(y|x) 凸px凹；py∣。

2025-10-11 20:39:24 548

原创 Generalized least squares estimators

2025-10-01 20:36:54 169

原创 The Goldfeld–Quandt test

2025-09-29 21:11:58 156

原创 Heteroskedasticity

The passage is describing heteroskedasticity, a situation where the variance of the error term ( ϵ\epsilonϵ ) is not constant but depends on the explanatory variable (x).In ordinary regression we usually assume homoskedasticity: (Var(ϵ)=σ2\text{Var}(\epsi

2025-09-28 22:46:15 812

原创 Chow-test

A。

2025-09-28 19:16:39 415

原创 Information theorem-Entropy and mutual information

In information theory and statistics, “surprise” is quantified by self-information. For an event x with probability p(x), the amount of surprise (also called information content) is defined asI(x)=−log⁡p(x)=log⁡1p(x).I(x) = -\log p(x)=\log \frac{1}{p(x)}.I

2025-09-24 13:53:56 1075

原创 Least squares prediction and Indicator Variables

CI: “Where is the average wage for people with 16 years of education likely to be?”PI: “If I pick one random person with 16 years of education, what wage will they likely earn?”Target: The conditional mean μY∣X0=E[Y∣X0]\mu_{Y|X_0} = \mathbb{E}[Y|X_0]μY∣

2025-09-23 16:04:14 670

原创 What is information theory and coding

Source EncoderChannel EncoderModulatorChannel + NoiseDemodulatorChannel DecoderSource DecoderSinkWorks at the information/coding level (bit sequences).Two main types:Source encoder: compresses data into binary (e.g., JPEG, MP3, Huffman coding).Channel enco

2025-09-22 22:07:42 722

原创 Further inference in the multiple linear regression model

Simple null hypothesis → involves a restriction on one sign (<,=,>) only (e.g.H0:β2=0).(e.g. H_0: \beta_2 = 0).(e.g.H0:β2=0).Joint null hypothesis → involves two or more restrictions at the same time (e.g.H0:β2=0, β3=0, β4=0).(e.g.H_0: \beta_2 = 0, \

2025-09-22 18:19:54 1040

原创 Information theorem-Entropy

In information theory and statistics, “surprise” is quantified by self-information. For an event x with probability p(x), the amount of surprise (also called information content) is defined asI(x)=−log⁡p(x)=log⁡1p(x).I(x) = -\log p(x)=\log \frac{1}{p(x)}.I

2025-09-21 16:52:38 1264

原创 Interval estimation and Hypothesis

R2。

2025-09-19 11:07:30 244

原创 Recursion

→ 撤销选择，还原数组，继续尝试别的数字。→ 所有位置确定，保存结果。→ 把候选数字放到当前。→ 继续处理后续位置。spare：空闲的柱子。

2025-09-18 15:45:41 301

原创 Asymptotic Notations

注意：计算机教材的写法 f(n)f(n)f(n)是一个元素，=== 代表属于，O(g(n))O(g(n))O(g(n))是一个集合f(n)=O(g(n)) ⟺ ∃c>0,n0>0, ∀n≥n0, 0≤f(n)≤cg(n).f(n) = O(g(n)) \quad \iff \quad \exists c>0, n_0>0,\ \forall n \geq n_0,\ 0 \leq f(n) \leq c g(n).f(n)=O(g(n))⟺∃c>0,n0>0, ∀n≥n0, 0≤f(n)≤cg(n)

2025-09-17 18:41:00 966

原创 Leetcode-148.排序链表

注意归并排序的细节：用快慢指针找到中间的指针。中间指针在慢指针后面注意慢指针要断链。

2025-09-17 16:15:51 966

原创 Multiple Regression Model

y~i=yi−yˉ,x~i2=xi2−xˉ2,x~i3=xi3−xˉ3.\tilde{y}_i = y_i - \bar{y}, \quad \tilde{x}_{i2} = x_{i2} - \bar{x}_2, \quad \tilde{x}_{i3} = x_{i3} - \bar{x}_3 .y~i=yi−yˉ,x~i2=xi2−xˉ2,x~i3=xi3−xˉ3.In this model, as in many others, it is important to reco

2025-09-16 17:26:49 1006

原创 Explainable ML

蓝色表示判断正确的概率越低。

2025-09-16 16:15:56 198

原创 Hypothesis testing and Least squares prediction

PI 针对的是未来单个观测值Y0Y_0Y0。Py0−t0.975n−k−1⋅sef≤Y0≤y0t0.975n−k−1⋅sef≈0.95Py0−t0.975n−k−1⋅sef≤Y0≤y0t0.975n−k−1⋅sef≈0.95含义：在固定x0x_0x0的情况下，未来新观测Y0Y_0Y0。

2025-09-15 16:54:21 776

原创 Estimator and Confidence interval

标准差 (SD)衡量数据本身的离散程度。σEX−μ2s1n−1∑xi−xˉ2σEX−μ2sn−11∑xi−xˉ2标准误差 (SE)衡量统计量（比如样本均值、回归系数）在重复抽样下的波动大小。SEXˉsnSEXˉns它是“估计量的标准差”。自由度 = 可以自由变化的数据点个数 = 总数据点数 − 约束条件数。例子：有 n 个数，它们可以完全随意 → 自由度 = n。

2025-09-13 23:15:05 901

原创 Algorithm-Insertion sort, merge sort

递归树的叶子结点指的是递归停止的地方。在归并排序中，递归停止条件是子数组规模 = 1（一个数本身就是有序的）。所以叶子结点对应规模为 1 的子问题。

2025-09-11 17:45:16 1105

原创 SME-OLS

定义：ei=yi−y^ie_i = y_i - \hat{y}_iei=yi−y^iyiy_iyi：第 i 个样本的真实观测值；y^i\hat{y}_iy^i：回归模型给出的预测值；eie_iei：残差（residual），是“真实值 - 预测值”。β1,β2\beta_1, \beta_2β1,β2：总体的真实参数（未知）；εi\varepsilon_iεi：随机误差项，捕捉未观测因素和随机性。这是理想中的经济学/统计学关系，但参数β\betaβ和误差分布我们不知道。形式：Y^i=

2025-09-09 17:39:50 907

原创 Pandas-SeriesDataFrame

方向不同：加行 → 扩展index；加列 → 扩展columns。

2025-09-08 17:46:03 576

原创 SME-Econometrics

实验数据（experimental data）非实验数据（non-experimental / observational data）实验数据：研究者可以主动操控自变量（比如设置不同的处理组/对照组），然后观察因变量的反应。非实验数据：研究者不能操控自变量，只能记录现实中自然发生的数据。实验数据：可以在相同条件下反复试验，保证结果的可验证性。非实验数据：条件不可控，通常不可重复，只能依赖统计方法去控制偏差。the offspring of larger than average size parents t

2025-09-08 11:55:28 1100

原创进程和线程的区别是什么？

核心观点进程（Process）: 是正在执行的程序。一个程序在运行时可以包含一个或多个进程。线程（Thread）: 是进程中的一个执行单元。一个进程可以包含一个或多个线程，这些线程共享进程的资源。重要细节类比关系: 通过图示形象地展示了进程和线程的关系：进程像一个大的容器，而线程是容器内部独立运行的单位。多线程: 现代操作系统支持多线程，这使得一个进程可以同时执行多个任务，从而提高效率。实际应用任务管理器: 通过 Windows 的任务管理器，我们可以看到系统中正在运行的程序和相关的进程。

2025-08-31 02:33:17 517

原创 gemini 2.5 flash Image -preview

使用gemini 2.5 flash Image -preview生成模型，整体体验让人印象深刻，尤其是在和方面。首先，最直观的感受是生成速度，比之前用过的GPT-5感觉要迅捷不少，几乎是瞬间出图，大大提升了创作效率。其次，在图像质量上，这款模型对尤为出色。它能精准捕捉复杂的光影变化，让人物面部和环境阴影看起来非常自然且富有层次感，大大增强了图像的真实感和艺术性。在不同平台的使用体验上，无论是AI Studio还是Web端，我感觉。

2025-08-28 10:12:28 522

原创机器学习-Regression

作业的 baseline 中看到 loss 在训练过程中不收敛，甚至来回震荡，通常是由以下几个核心原因造成的，其中是最常见的主谋。

2025-08-26 08:31:24 777

原创 MLP-makemore

才是将这个。

2025-08-26 08:24:24 1481

原创机器学习-大语言模型Finetuning vs. Prompting

通才”不是指Prompt把模型变成了通才，而是指模型本身已经被训练成了一个“通才”。它在海量数据中学习了语言、逻辑、知识和多种技能的潜在模式。Prompt的作用是“激活”和“引导”。它像一个开关或一个指令，告诉这个强大的通才模型：“嘿，现在请启动你的‘翻译’技能”或者“现在请启动你的‘创意写作’技能”。

2025-08-25 10:40:55 1350 2

原创 Why Some Software Is Written in Multiple Languages

你是否曾好奇，为什么一个软件项目有时会“混搭”使用多种编程语言？这背后其实蕴含着现代软件工程中关于性能、协作与代码复用的深刻智慧。本文将带你深入了解这背后的技术原理。对于我们熟悉的网站和应用，例如使用Django这类全栈框架构建的项目，其本身就是多语言协作的典型。后端逻辑可能由Python处理，而用户直接交互的前端界面则由HTML、CSS和JavaScript构建。这两部分作为独立的进程，通过网络请求等方式进行通信，各自安好。

2025-08-25 07:00:04 792

原创 bi-gram项目拆解

在 NLP 或分类任务中，我们常常需要把离散的类别（如字符、单词、标签）转换成向量。如果类别数是 VV，那么 one-hot 向量就是长度为 VV 的向量：只有该类别对应的位置是 1其它位置全是 0。例子：词表大小 V=5V=5，假设类别是2。

2025-08-23 00:26:47 605

原创 DataWhale夏令营-AI超级个体

无需代码基础，通过轻松搭建个人网站、设计海报、制作播客；Coze（国内叫“扣子”）是字节跳动推出的一个。它本质上不是单一的大模型，而是一个“平台化工具”，提供可视化的工作流、插件接口、知识库（RAG）、长期记忆等能力，让用户（即使不懂代码）也能快速创建和部署自己的 AI 聊天机器人或任务型智能体。：像搭积木一样配置逻辑，不需要自己训练模型，就能做问答机器人、助手、客服、游戏 NPC 等。：可以上传文档或数据，给 Bot 提供专属知识，适合企业 FAQ、教育培训等场景。

2025-08-20 12:19:09 328

原创机器学习概念(面试题库)

定义：模型太简单，无法捕捉数据的潜在规律，在训练集和测试集上表现都不好。表现：训练误差高，测试误差也高。例子：用线性模型去拟合高度非线性的数据。

2025-08-19 18:49:28 852

原创反向传播-micrograd

神经网络的本质: 它们是可微调的复杂数学表达式。训练的本质: 通过梯度下降算法，找到一组最优的参数（权重和偏置），使得损失函数最小化。核心引擎反向传播是高效计算梯度的关键，它使得在巨大的参数空间中进行梯度下降成为可能。Micrograd 与 PyTorch: Micrograd 的API设计与PyTorch高度相似，理解了Micrograd的原理，就能更好地理解PyTorch等工业级框架的内部工作机制。**

2025-08-18 05:05:52 361

原创上下文工程（Context Engineering）

熟练地运用“写入、选取、压缩、隔离”这四大策略，将是区分一个AI应用是有趣的玩具，还是一个可靠、可规模化产品的关键。最终，无论是精巧的提示词、高效的RAG系统，还是标准化的模型交互协议（MCP），它们都服务于同一个终极目标：在模型做出决策之前，为它准备好一份恰到好处的上下文。这好比一个多Agent系统，每个子Agent在各自领域内并行工作，消化原始信息，然后将压缩后的洞见提交给主Agent，从而极大减轻主Agent的认知负担。：在每次调用模型前，从所有可用的信息源中，动态地拉取与当前子任务最相关的信息。

2025-08-16 05:15:09 777

空空如也

空空如也