
人工智能
文章平均质量分 79
人工智能的一些个人观点,学习的技术分享
AI_Auto
主要从事智能制造,机器人,数字化解决方案的设计和开发工作,主要涉及的专业方向包括自动控制、机器人、数字化、智能制造、机器学习等。 需要技术交流,答疑解惑,源码支持等请联系加公众号AutoMen联系反馈
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Google机器学习基础(语言模型)
语言模型就像是文字的"概率计算器",它能估算出现的可能性。原创 2025-08-01 22:04:45 · 706 阅读 · 0 评论 -
Google机器学习基础(获取嵌入的三大方法)
数学工具箱里有多种这些方法理论上都可用于创建嵌入,但PCA是最早应用于词嵌入的技术之一。原创 2025-08-03 09:00:00 · 620 阅读 · 0 评论 -
Google机器学习基础(嵌入空间与静态嵌入)
嵌入是指将数据表示为中的向量。模型通过将高维初始数据投影到低维空间来发现潜在嵌入结构。这种降维处理使得我们可以更高效地对大型特征向量(如代表食物的稀疏向量)进行机器学习。原创 2025-07-24 09:00:00 · 1376 阅读 · 0 评论 -
Google机器学习核心概念精讲 - 独热编码
图1:智能餐点推荐应用工作流程示意图。原创 2025-07-22 09:00:00 · 232 阅读 · 0 评论 -
Google机器学习实践指南(多类别神经网络)
图:多类别神经网络结构示意图。原创 2025-07-11 09:15:00 · 1436 阅读 · 0 评论 -
Google机器学习实践指南(神经网络入门)
机器学习基础(32)-神经网络入门指南(约7分钟)一、神经网络:模仿大脑的AI模型核心组件:神经网络的基本处理单元,接收输入并产生输出:决定输入信号的重要性,在训练过程中不断调整:控制神经元激活的难易程度,类似生物神经元的阈值:为网络引入非线性能力,使其可以学习复杂模式为什么需要神经网络?对于如下的数据,我们是否有什么办法进行分类呢?对于上述的数据,我们无法用线性模型:y = W1X1 + W2。原创 2025-07-11 09:00:00 · 774 阅读 · 0 评论 -
Google机器学习实践指南(模型预测偏差)
想象一下,你网购了一个智能体重秤,连续一周称重显示都是60kg。但你去健身房用专业设备测量,实际是62kg。这种系统性的测量偏差,就是预测偏差在现实中的体现!专业定义预测偏差 = 模型预测平均值 - 实际观测平均值当这个值偏离零时,说明你的模型在系统性偏离真实情况!原创 2025-07-09 09:00:00 · 695 阅读 · 0 评论 -
Google机器学习实践指南(分类模型的可视化评估)
曲线下面积的取值范围为 0-1。预测结果 100% 错误的模型的曲线下面积为 0.0;而预测结果 100% 正确的模型的曲线下面积为 1.0。曲线下面积的一种解读方式是看作模型将某个随机正类别样本排列在某个随机负类别样本之上的概率。曲线下面积对所有可能的分类阈值的效果进行综合衡量。曲线下面积表示随机正类别(绿色)样本位于随机负类别(红色)样本右侧的概率。:接收者操作特征曲线,是一种显示分类模型在所有分类阈值下的效果的图表。✅ ROC曲线:全面展示阈值变化下的性能。:ROC曲线下的二维面积。原创 2025-07-07 09:00:00 · 516 阅读 · 0 评论 -
Google机器学习实践指南(精确率与召回率)
定义:预测为正的样本中真正正样本的比例公式精确率 = TP / (TP + FP)业务意义:衡量预测的准确性示例:垃圾邮件识别中避免误判重要邮件。原创 2025-07-05 20:00:00 · 492 阅读 · 0 评论 -
Google机器学习实践指南(准确率)
TP:真正例, TN:真负例, FP:假正例, FN:假负例。机器学习基础(28)-评估指标解析(约6分钟)⚠️ 欺诈检测(FP/FN代价差异大)必须结合:精确率+召回率+F1综合评估。业务对齐:根据错误代价选择评估重点。⚠️ 疾病诊断(FN代价高)✅ 正负例错误代价相近。一、准确率定义与计算。✅ 类别平衡的数据集。✅ 初步模型快速评估。原创 2025-07-03 20:00:00 · 1317 阅读 · 0 评论 -
Google机器学习实践指南(真假正负例)
核心概念正类别:重点检测的目标(如"肿瘤"、“垃圾邮件”)负类别:其他情况(如"健康"、“正常邮件”)经典案例应用场景正类别负类别医疗检测“肿瘤”“健康”垃圾邮件过滤“垃圾邮件”“正常邮件”欺诈检测“欺诈交易”“正常交易”原创 2025-07-01 09:15:00 · 358 阅读 · 0 评论 -
Windows家庭版安装docker
win11系统下的wsl2工具是部署docker的前置条件,它能帮助系统在win系统下建立linux运行环境。打开cmd命令行,输入docker -v,如果此时能正常显示对应的docker 版本,则对应的安装成功。Hyper-V功能仅在Windows专业版、企业版和教育版中可用,家庭版不支持Hyper-V功能。在docker desktop界面中选择合适的安装包的版本。此时,通过执行如下指令查询可用的WSL分发列表。出现如下的界面表明WSL没有安装。安装好后,按照提示重启即可。设置好后,点击设置即可。原创 2025-06-27 21:46:25 · 984 阅读 · 0 评论 -
Google机器学习实践指南(分类阈值)
将癌症患者误判为健康(假阴性)的代价,远高于将健康人误判为患者(假阳性)”机器学习基础(26)-决策边界解析(约2分钟):分类输出"是什么",回归输出"是多少"阈值=0.3:确保高风险病例全被检出。阈值=0.5:可能漏诊早期患者。医疗诊断:阈值0.1-0.3。金融风控:阈值0.7-0.9。日常应用:阈值0.5-0.6。一、分类VS回归:核心差异。二、分类阈值:决策边界解析。✅ 阈值本质:风险管理工具。假阳性代价高 → 提高阈值。假阴性代价高 → 降低阈值。经典示例:垃圾邮件过滤。四、调整阈值的三步法。原创 2025-06-29 08:15:00 · 373 阅读 · 0 评论 -
Google机器学习实践指南(逻辑回归损失函数)
正则化在逻辑回归建模中极其重要。因为没有正则化的情况下,逻辑回归会不断促使损失在高维度空间内达到 0。Google机器学习(25)-逻辑回归损失函数。数据含大量离群值时建议改用Huber损失。▲ 图2 不同正则化权重的对损失影响。▲ 图1 不同训练时间下的损失变化。▲ 平方损失函数(L2 Loss)其解等价于最大似然估计下的最优解。逻辑回归被很多从业者广泛使用。为什么回归问题常用平方损失?逻辑回归模型会生成概率。三、Python实战示例。是逻辑回归的损失函数。何时不宜使用平方损失?原创 2025-06-27 21:42:34 · 404 阅读 · 0 评论 -
Ros系列 : window环境下安装ROS(基于VMWare)
VT-x是Intel公司开发的硬件辅助虚拟化指令集,属于Intel Virtualization Technology(VT)的核心组成部分。该技术通过扩展x86架构引入VMX操作模式(根模式与非根模式),实现CPU级别的虚拟化支持。其核心功能包括通过硬件加速解决传统软件虚拟化中的敏感指令问题,并借助VMCS数据结构管理虚拟机状态切换。原创 2025-06-24 09:15:00 · 1524 阅读 · 0 评论 -
Google机器学习(逻辑回归)
Google机器学习入门(24)-逻辑回归核心概念一、核心概念解析二元分类:一种可输出两种互斥类别之一的分类任务。例如,对电子邮件进行评估并输出“垃圾邮件”或“非垃圾邮件”的机器学习模型就是一个二元分类器。多类别分类:一种区分两种以上类别的分类问题的分类任务。例如,枫树大约有 128 种,因此,确定枫树种类的模型就属于多类别模型。逻辑回归:一种通过将 S 型函数应用于线性预测,生成分类问题中每个可能的离散标签值的概率的模型。原创 2025-06-27 09:15:00 · 785 阅读 · 0 评论 -
Google机器学习实践指南(L1(稀疏特征)正则化)
使用一种根据权重的绝对值的总和来惩罚权重的正则化方式。在依赖稀疏特征的模型中,L1 正则化有助于使不相关或几乎不相关的特征的权重正好为 0,从而将这些特征从模型中移除。与 L2 正则化相对。Google机器学习(23)-L1(稀疏特征)正则化(约8分钟)经L1筛选后:约3,000个非零权重。二、L1 vs L2 机制对比。L1为什么能精确产生零权重?案例:文本分类中的词袋模型。特征维度 > 10,000。原始特征:50,000维。三、L1正则化优势场景。3. 特征重要性分析。小心重要特征被误剔除。原创 2025-06-21 23:16:13 · 989 阅读 · 0 评论 -
Google机器学习实践指南(L2正则化技术解析)
创建对数尺度搜索空间(如0.001, 0.01, 0.1, 1)Google机器学习(22)-L2正则化技术解析(约10分钟)是的,常作为默认正则化方法(weight_decay参数)因其使权重在训练过程中不断指数衰减。λ过大导致重要特征被过度压制。为什么L2又叫"权重衰减"?3. Python代码示例。所有特征标准化后再应用L2。同时调整学习率和λ导致混淆。:正则化率,控制惩罚强度。当验证集误差达到最低点时。使权重接近0但不等于0。监控训练/验证损失曲线。四、L2正则化优势场景。深度学习中也用L2吗?原创 2025-06-22 09:15:00 · 1441 阅读 · 0 评论 -
Google机器学习实践指南(机器学习正则化原理和实战指南)
随着λ的增加,训练集误差不断增加(欠拟合),而交叉验证集误差则是先减小后增加;Google机器学习(21)-正则化原理与实战指南(约15分钟)L1正则化 - 将模型复杂度作为具有非零权重的特征总数的函数。L2正则化 - 将模型复杂度作为模型中所有特征的权重的函数。当λ较小时,训练集误差较小(过拟合)而交叉验证集误差较大;一个是经验损失项,用于衡量模型与数据的拟合度;一个是正则化项,用于衡量模型复杂度。1. L1正则化(Lasso)2. L2正则化(Ridge)根据特征数量选择L1/L2。原创 2025-06-20 09:00:00 · 626 阅读 · 0 评论 -
Google机器学习实践指南(非线性特征工程解析)
从原始特征衍生出的新特征。原创 2025-06-15 20:34:18 · 814 阅读 · 0 评论 -
Google机器学习实践指南(数据清洗)
Google机器学习(19)-数据清洗实战(约15分钟)一、特征缩放技术为什么需要缩放?五大缩放方法对比(x-μ)/σx/max(|x|)xminmaxmeanμσmedianIQR二、离群值处理方案。原创 2025-06-18 09:00:00 · 855 阅读 · 0 评论 -
Google机器学习实践指南(机器学习优质特征标准)
Google机器学习(18)-优质特征标准解析(约5分钟)可通过数据字典进行标注说明后使用。:特征值应在数据集中出现≥5次。如何处理必须使用的低频特征?语义模糊的特征一定不可用吗?建立编码-名称的永久映射表。可采用特征哈希或分桶处理。城市聚类编号如何稳定化?:特征含义应直观可理解。三、特征质量标准对照表。一、优质特征核心标准。原创 2025-06-16 09:00:00 · 253 阅读 · 0 评论 -
AI Agent系列(十二) -PPT生产攻略
操纵人工智能,实现化腐朽为我所用。本文使用的大语言工具为腾讯元宝和kimi。原创 2025-06-12 08:30:38 · 414 阅读 · 0 评论 -
Google机器学习实践指南(机器学习四大特征工程核心解析)
Google机器学习(17)-四大特征工程核心解析(约5分钟)可采用哈希分桶或嵌入编码(Embedding)当特征取值数量<50且需要完整保留类别信息时。部分算法不支持稀疏输入,需转换为密集格式。3. 多热编码(Multi-Hot)示例:街道名称、产品类别、颜色等。2. 独热编码(One-Hot)节省内存空间(尤其在高维特征时)离散型特征,取值来自预定义集合。创建稀疏向量(仅1个元素为1)适合多值特征(如标签、关键词)适合有限可能值的分类特征。如何处理高基数分类特征?允许向量中多个位置为1。原创 2025-06-07 07:45:34 · 323 阅读 · 0 评论 -
Google机器学习实践指南(机器学习四大数据划分方法详解)
2. 交叉验证法 (K-fold Cross Validation)Google机器学习(16)-四大数据划分技术解析(约6分钟)3. 留一法 (Leave-One-Out, LOO)将数据集D直接划分为互斥的训练集S和测试集T。1000样本数据集(500正例+500反例)→ 训练集700样本(350正+350反)→ 测试集300样本(150正+150反)常用k=5或10,数据量大时可减小k值。k折交叉验证的特例(k=样本数m)k常取5或10(10折交叉验证)将数据集D划分为k个互斥子集。原创 2025-06-09 09:00:00 · 1478 阅读 · 0 评论 -
Google机器学习实践指南(机器学习数据集划分指南)
Google机器学习(15)-机器学习数据集划分指南(约5分钟)大数据集划分比例(适用于样本量>100,000的大规模数据集)小规模数据集划分比例(适用于样本量<10,000的数据集)采用分层抽样(Stratified Sampling)小型项目可合并验证/测试集,但专业项目必须分离。按时间顺序划分(如前80%训练,后20%测试)二、训练集/测试集划分原则。最小样本量:>1000。特征分布与训练集一致。三、三数据集划分规范。如何确保数据代表性?原创 2025-06-07 07:36:33 · 311 阅读 · 0 评论 -
Google机器学习实践指南(机器学习模型泛化能力)
Google机器学习(14)-机器学习模型泛化原理与优化(约10分钟)通过验证集进行网格搜索(如λ∈[0.001,0.01,0.1,1])蓝点:生病树 | 橙点:健康树 | 模型边界:黑色曲线。泛化误差(Generalization Error)“如无必要,勿增实体” - 优先选择更简单的模型。模型在新数据上表现糟糕,尽管训练损失很低。为什么低训练损失的模型在新数据上表现差?模型在新数据上的表现能力泛化误差。测试集应足够大(>1000样本)采用K折交叉验证(K=5或10)机器学习模型的泛化能力指模型对。原创 2025-06-06 20:00:00 · 802 阅读 · 0 评论 -
Google机器学习实践指南(TensorFlow多项式回归模型构建实例)
可添加L2正则化:loss += beta * tf.nn.l2_loss(W_3)2。学习率调整:尝试指数衰减 tf.train.exponential_decay。Google机器学习(13)-多项式回归模型构建训练全流程解析(约20分钟)批量训练:使用tf.train.batch提升效率。通过交叉验证评估不同次数的性能,避免高阶过拟合。可视化计算图/损失曲线,辅助调试复杂模型9。早停机制:验证损失不再下降时终止训练。如何选择合适的多项式次数?二、模型构建关键步骤。如何处理过拟合问题?原创 2025-06-04 08:30:00 · 260 阅读 · 0 评论 -
Google机器学习实践指南(TensorFlow六大优化器)
*说明:**Nesterov Momentum(牛顿动量法)是momentum方法的一项改进,与Momentum唯一区别是计算梯度的不同,Nesterov momentum先用当前的速度v更新一遍参数,再用更新的临时参数计算梯度。**参数:**步进值 ϵ, 初始参数 θ, 数值稳定量δ,一阶动量衰减系数ρ1, 二阶动量衰减系数ρ2 (经验值:δ=10^−8,ρ1=0.9,ρ2=0.999)。**参数:**学习速率 ϵ, 初始参数 θ, 初始速率v, 动量衰减参数α。原创 2025-06-02 21:40:22 · 1226 阅读 · 0 评论 -
Google机器学习实践指南(TensorFlow特征工程六法)
分类标识列主要用于非数值类型(总类型是有限集合)的特征进行数值化,分类标识列视为分桶列的一种特殊情况,其将将分桶数据映射为一个具体数值。组合列主要适用于单个特征在独立使用时基本无法表达意义的场景方法使通过将两个或两个以上的特征组合起来构造成一个特征(称为特征组合)。主要用于将数据类别的数量非常大需要消耗大量内存的情况下,通过哈希处理对类别数量进行限制,其原理是利用哈希算法将不同的输入值强制划分成更少数量的类别。Google机器学习实战(11)-特征列组合六大方法深度解析与应用。原创 2025-06-02 08:45:00 · 1625 阅读 · 0 评论 -
Google机器学习实践指南(TensorFlow数据读取)
Tensorflow允许在TensorFlow运算图中将数据注入到任一张量中。因此,python运算可以把数据直接设置到TensorFlow图中。Google机器学习实战(10)-TensorFlow数据读取的三种实现模式。TFRecord更适合大规模结构化数据[citation:1]通过run()/eval()的feed_dict参数触发。[1] TensorFlow数据读取机制深度解析。可采用生成器逐步加载或切换为文件读取模式。🔗 TensorFlow数据输入管道指南。预加载数据时内存不足怎么办?原创 2025-06-01 06:54:37 · 428 阅读 · 0 评论 -
Google机器学习实践指南(TensorFlow工具包)
Google机器学习实战(9)-4分钟了解深度学习框架Tensorflow的核心架构与应用▲ 核心定义:TensorFlow是一个基于数据流编程的符号数学系统:cite[1],被广泛应用于各类机器学习算法的编程实现。其核心特性包括:▲ 图1 TensorFlow工具包层次结构构造执行前端系统计算图后端系统TensorFlow Kernel三、Estimator API实战1. 开发流程▲ 图2 Estimator标准工作流2. 代码示例1. 创建输入函数2. 定义特征列3. 实例化Estimat原创 2025-05-26 09:30:00 · 806 阅读 · 0 评论 -
Google机器学习实践指南(优化学习速率篇)
学习速率是梯度下降算法中用于控制参数更新步长的超参数,通过与梯度相乘确定下一步的位置:cite[1]:cite[7]。Google机器学习实战(8)-掌握梯度下降中的学习速率的调节。2. 金发姑娘原则(Goldilocks Principle)损失函数的曲率在不同区域可能变化,需要自适应调整步长6。需手动调节的模型配置参数,与模型自动学习的参数相对1。描述函数局部曲率的二阶偏导数矩阵,用于多维优化16。新参数 = 旧参数 - 学习速率 × 梯度。二、不同学习速率的影响。一、学习速率核心概念。原创 2025-05-25 07:38:04 · 273 阅读 · 0 评论 -
Google机器学习实践指南(学习速率篇)
Google机器学习实战(7)-5分钟掌握学习速率。学习速率。原创 2025-05-23 21:57:29 · 375 阅读 · 0 评论 -
Google机器学习实践指南(梯度下降篇)
Google机器学习实战(6)-3分钟掌握梯度下降核心原理。通过迭代计算梯度并调整参数,寻找权重和偏差的最佳组合。训练损失和验证损失变化趋近于零的状态。▲ 图1 回归问题的碗状损失曲线。为W1选择一个起始值(起点)当连续迭代损失变化小于阈值时。▲ 图3 负梯度方向示意图。负方向指向损失下降最快路径。控制参数更新步长的超参数。▲ 图4 单步更新过程。▲ 图5 完整收敛轨迹。为什么选择负梯度方向?▲ 图3 梯度起始点。原创 2025-05-22 21:33:09 · 308 阅读 · 0 评论 -
Google机器学习实践指南(迭代学习机制解析篇)
在训练机器学习模型时,首先对权重和偏差进行初始猜测,然后反复调整这些猜测,直到获得损失可能最低的权重和偏差为止。Google机器学习实战(4)-深入理解模型训练中的迭代优化过程。监控损失值变化率,当连续多次迭代变化小于阈值时。对线性模型而言,初始值不影响最终收敛结果。前向传播:y’ = W₁x + W₀。训练达到的稳定状态,损失变化趋近于零。有标签样本预测值和实际值之差的平方。▲ 图1 机器学习的迭代试错过程。损失计算:使用平方损失函数。可扩展性强(适合大数据集)参数更新:调整W₁和W₀。原创 2025-05-21 07:30:52 · 237 阅读 · 0 评论 -
Google机器学习实践指南(训练与损失函数篇)
Google机器学习实战(4)-掌握模型训练核心机制,吃透损失函数设计。在特征空间搜索最优参数组合,使预测值最大程度逼近真实标签的数学过程。▲ 左:高损失模型(预测偏差大) 右:低损失模型(预测精准)▲ 不同损失函数在房价预测中的表现差异可达12%当数据存在异常值时,MAE的鲁棒性更优。1. 平方损失(L2 Loss)参数初始化→损失计算→梯度下降。推荐使用L2正则化或早停策略。何时选择MAE代替MSE?2. 均方误差(MSE)如何防止模型过拟合?原创 2025-05-19 20:15:00 · 792 阅读 · 0 评论 -
【Google机器学习实践指南(线性回归篇)
Google机器学习实战(3)-单变量线性回归核心解析,掌握房价预测模型。▲ 图1:历史数据展示卧室数与房价的正相关趋势。▲ 图2:红色回归线揭示特征与标签的数学关系。数据可视化→特征工程→模型训练→预测推理。1. 数据可视化分析。3. 单变量模型构建。原创 2025-05-18 22:43:44 · 291 阅读 · 0 评论 -
Google机器学习系列 (2)- 非监督学习
Google机器学习概念(2)-探索无监督学习奥秘,掌握数据自主发现能力。自主发现数据内在结构与规律,实现特征提取与模式识别的机器学习范式。▲ 非监督学习三大支柱:特征→模式发现→知识提炼。▲ 所有样本均为无标签数据,分组需算法自主发现。-自组织映射:通过数据相似性建立内在结构。数据清洗→特征处理→模式挖掘→知识应用。-表征学习:自动提取高阶特征。1. 非监督学习本质。原创 2025-05-18 10:00:00 · 268 阅读 · 0 评论 -
Google机器学习系列 - 监督学习
Google机器学习入门-监督学习原创 2025-05-02 08:00:30 · 549 阅读 · 0 评论