不牌不改
※ 接受自己很普通
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【机器学习】噪声对比估计(NCE)
噪声对比估计(Noise Contrastive Estimation,NCE)提供了一种解决配分函数(partition function)难以计算问题的策略。噪声对比估计主要有两大贡献:一是将多分类问题转换为二分类问题,通过学习数据分布与噪声分布的差异来挖掘数据的特性;二是,在转换为二分类问题后,使得引入一个额外的模型参数(或常数)作为对配分函数的近似变得可行。考虑一个场景,在自然语言处理中,语言模型的任务是预测每个句子出现的概率 P(s)P(s)P(s),其中句子 s={w1,w2,…,wm}s =原创 2023-04-19 22:05:46 · 971 阅读 · 0 评论 -
【自然语言处理】Attention 讲解
注意力 attention Mechanism 编码 解码 Encoder Decoder Seq2Seq Bahdanau Luong 全局注意力 局部注意力 input-feeding Query Key Value Softmax 中间语义向量 概率分布 权重 隐藏状态 对齐 alignment Transformer Effective approaches to attention-based neural machine translation原创 2023-02-07 17:01:20 · 648 阅读 · 2 评论 -
【自然语言处理】Seq2Seq 讲解
Encoder-Decoder 编码器 解码器 Seq2Seq beam search BLEU 束搜索 机器翻译 RNN LSTM GRU 中间语义表示 贪婪搜索 穷举搜索 n-gram 评价方法原创 2023-01-29 11:16:41 · 627 阅读 · 0 评论 -
【机器学习】GRU 讲解
GRU RNN LSTM 长期依赖问题 前向传播 重置门 更新门 输入门 输出门 遗忘门原创 2023-01-09 15:22:12 · 3216 阅读 · 2 评论 -
【自然语言处理】条件随机场【Ⅴ】条件随机场解码问题
马尔可夫随机场 团 最大团 概率无向图 马尔可夫网 势函数 能量函数 规范化因子 条件随机场 标注偏置 label bias CRF 随机场 随机变量 随机过程 线性链 向量形式 矩阵形式 估计问题 学习问题 前向向量 后向向量 解码问题 梯度下降 改进的迭代尺度 S算法 T算法 转移特征函数 状态特征函数 IIS 维特比算法 非规范化概率 判别模型 生成模型 隐马尔可夫模型 HMM 最大熵马尔可夫模型 MEMM 联合概率 条件概率 最大熵模型 期望 对数线性模型 状态序列 观测序列 极大似然函数 正则化原创 2023-01-06 15:53:06 · 492 阅读 · 2 评论 -
【自然语言处理】条件随机场【Ⅳ】条件随机场学习问题
马尔可夫随机场 团 最大团 概率无向图 马尔可夫网 势函数 能量函数 规范化因子 条件随机场 标注偏置 label bias CRF 随机场 随机变量 随机过程 线性链 向量形式 矩阵形式 估计问题 学习问题 前向向量 后向向量 解码问题 梯度下降 改进的迭代尺度 S算法 T算法 转移特征函数 状态特征函数 IIS 维特比算法 非规范化概率 判别模型 生成模型 隐马尔可夫模型 HMM 最大熵马尔可夫模型 MEMM 联合概率 条件概率 最大熵模型 期望 对数线性模型 状态序列 观测序列 极大似然函数 正则化原创 2023-01-06 15:51:23 · 446 阅读 · 4 评论 -
【自然语言处理】条件随机场【Ⅲ】条件随机场估计问题
马尔可夫随机场 团 最大团 概率无向图 马尔可夫网 势函数 能量函数 规范化因子 条件随机场 标注偏置 label bias CRF 随机场 随机变量 随机过程 线性链 向量形式 矩阵形式 估计问题 学习问题 前向向量 后向向量 解码问题 梯度下降 改进的迭代尺度 S算法 T算法 转移特征函数 状态特征函数 IIS 维特比算法 非规范化概率 判别模型 生成模型 隐马尔可夫模型 HMM 最大熵马尔可夫模型 MEMM 联合概率 条件概率 最大熵模型 期望 对数线性模型 状态序列 观测序列 极大似然函数 正则化原创 2023-01-06 15:49:47 · 441 阅读 · 0 评论 -
【自然语言处理】条件随机场【Ⅱ】条件随机场概述
马尔可夫随机场 团 最大团 概率无向图 马尔可夫网 势函数 能量函数 规范化因子 条件随机场 标注偏置 label bias CRF 随机场 随机变量 随机过程 线性链 向量形式 矩阵形式 估计问题 学习问题 前向向量 后向向量 解码问题 梯度下降 改进的迭代尺度 S算法 T算法 转移特征函数 状态特征函数 IIS 维特比算法 非规范化概率 判别模型 生成模型 隐马尔可夫模型 HMM 最大熵马尔可夫模型 MEMM 联合概率 条件概率 最大熵模型 期望 对数线性模型 状态序列 观测序列 极大似然函数 正则化原创 2023-01-06 15:40:10 · 510 阅读 · 2 评论 -
【自然语言处理】条件随机场【Ⅰ】马尔可夫随机场
马尔可夫随机场 团 最大团 概率无向图 马尔可夫网 势函数 能量函数 规范化因子 条件随机场 标注偏置 label bias CRF 随机场 随机变量 随机过程 线性链 向量形式 矩阵形式 估计问题 学习问题 前向向量 后向向量 解码问题 梯度下降 改进的迭代尺度 S算法 T算法 转移特征函数 状态特征函数 IIS 维特比算法 非规范化概率 判别模型 生成模型 隐马尔可夫模型 HMM 最大熵马尔可夫模型 MEMM 联合概率 条件概率 最大熵模型 期望 对数线性模型 状态序列 观测序列 极大似然函数 正则化原创 2023-01-06 15:30:04 · 802 阅读 · 1 评论 -
【自然语言处理】最大熵马尔可夫模型
最大熵马尔可夫模型(maximum-entropy Markov model,MEMM)又称为条件马尔可夫模型(conditional Markov model,CMM)。单纯顾名思义的话,可能会认为最大熵马尔可夫模型是最大熵模型与马尔可夫模型的融合,但其实,它结合了最大熵模型和隐马尔可夫模型(HMM)的共同特点,被广泛应用于序列标注问题。我们的讨论是以观测与状态是一对一关系为前提,而不考虑多个观测对应一个状态的情况,比如: 被认为是一个专有名词,而不是一个形容词和一个名词。先对比 MEMM 与 HMM。二原创 2022-12-25 16:29:51 · 1642 阅读 · 9 评论 -
【机器学习】最大熵模型【下】最大熵模型学习的最优化算法
最大熵原理 最大熵模型 entropy 熵 特征函数 信息论 概率论 概率分布 约束条件 条件熵 约束最优化问题 拉格朗日函数 对偶问题 强对偶 极大极小 对偶函数 原始问题 规范化因子 条件概率分布 极大似然估计 交叉熵 参数学习 GIS IIS 通用迭代尺度算法 改进的迭代尺度算法 牛顿法 拟牛顿法 梯度下降法 偏导数 乘子 等价 期望 经验 EM算法 A maximum entropy approach to natural language processing原创 2022-12-21 17:29:08 · 1378 阅读 · 3 评论 -
【机器学习】最大熵模型【上】最大熵模型概述与约束最优化问题
最大熵原理 最大熵模型 entropy 熵 特征函数 信息论 概率论 概率分布 约束条件 条件熵 约束最优化问题 拉格朗日函数 对偶问题 强对偶 极大极小 对偶函数 原始问题 规范化因子 条件概率分布 极大似然估计 交叉熵 参数学习 GIS IIS 通用迭代尺度算法 改进的迭代尺度算法 牛顿法 拟牛顿法 梯度下降法 偏导数 乘子 等价 期望 经验 EM算法 A maximum entropy approach to natural language processing原创 2022-12-20 16:16:40 · 1046 阅读 · 3 评论 -
【自然语言处理】隐马尔可夫模型【Ⅵ】精度问题
隐马尔可夫模型 HMM 马尔可夫 Markov 马氏链 概率图 马尔可夫假设 状态序列 观测序列 齐次马尔可夫假设 观测独立性假设 三个基本问题 估计 evaluate 解码 decoding 预测 predict 学习 learning 联合概率 边缘概率 后验概率 直接计算 前向算法 前向概率 后向算法 后向概率 动态规划 递推 监督学习 无监督学习 Baum-Welch EM算法 迭代 拉格朗日 导数 近似算法 维特比算法 Viterbi 树型结构 最优路径 放大 scaling 精度 范围 多样本原创 2022-12-13 17:20:02 · 812 阅读 · 1 评论 -
【自然语言处理】隐马尔可夫模型【Ⅴ】解码问题
隐马尔可夫模型 HMM 马尔可夫 Markov 马氏链 概率图 马尔可夫假设 状态序列 观测序列 齐次马尔可夫假设 观测独立性假设 三个基本问题 估计 evaluate 解码 decoding 预测 predict 学习 learning 联合概率 边缘概率 后验概率 直接计算 前向算法 前向概率 后向算法 后向概率 动态规划 递推 监督学习 无监督学习 Baum-Welch EM算法 迭代 拉格朗日 导数 近似算法 维特比算法 Viterbi 树型结构 最优路径 放大 scaling 精度 范围 多样本原创 2022-12-13 17:17:29 · 694 阅读 · 0 评论 -
【自然语言处理】隐马尔可夫模型【Ⅳ】学习问题
隐马尔可夫模型 HMM 马尔可夫 Markov 马氏链 概率图 马尔可夫假设 状态序列 观测序列 齐次马尔可夫假设 观测独立性假设 三个基本问题 估计 evaluate 解码 decoding 预测 predict 学习 learning 联合概率 边缘概率 后验概率 直接计算 前向算法 前向概率 后向算法 后向概率 动态规划 递推 监督学习 无监督学习 Baum-Welch EM算法 迭代 拉格朗日 导数 近似算法 维特比算法 Viterbi 树型结构 最优路径 放大 scaling 精度 范围 多样本原创 2022-12-13 17:14:30 · 600 阅读 · 3 评论 -
【自然语言处理】隐马尔可夫模型【Ⅲ】估计问题
隐马尔可夫模型 HMM 马尔可夫 Markov 马氏链 概率图 马尔可夫假设 状态序列 观测序列 齐次马尔可夫假设 观测独立性假设 三个基本问题 估计 evaluate 解码 decoding 预测 predict 学习 learning 联合概率 边缘概率 后验概率 直接计算 前向算法 前向概率 后向算法 后向概率 动态规划 递推 监督学习 无监督学习 Baum-Welch EM算法 迭代 拉格朗日 导数 近似算法 维特比算法 Viterbi 树型结构 最优路径 放大 scaling 精度 范围 多样本原创 2022-12-13 17:07:57 · 621 阅读 · 3 评论 -
【自然语言处理】隐马尔可夫模型【Ⅱ】隐马尔科夫模型概述
隐马尔可夫模型 HMM 马尔可夫 Markov 马氏链 概率图 马尔可夫假设 状态序列 观测序列 齐次马尔可夫假设 观测独立性假设 三个基本问题 估计 evaluate 解码 decoding 预测 predict 学习 learning 联合概率 边缘概率 后验概率 直接计算 前向算法 前向概率 后向算法 后向概率 动态规划 递推 监督学习 无监督学习 Baum-Welch EM算法 迭代 拉格朗日 导数 近似算法 维特比算法 Viterbi 树型结构 最优路径 放大 scaling 精度 范围 多样本原创 2022-12-13 16:59:07 · 474 阅读 · 0 评论 -
【自然语言处理】隐马尔可夫模型【Ⅰ】马尔可夫模型
隐马尔可夫模型 HMM 马尔可夫 Markov 马氏链 概率图 马尔可夫假设 状态序列 观测序列 齐次马尔可夫假设 观测独立性假设 三个基本问题 估计 evaluate 解码 decoding 预测 predict 学习 learning 联合概率 边缘概率 后验概率 直接计算 前向算法 前向概率 后向算法 后向概率 动态规划 递推 监督学习 无监督学习 Baum-Welch EM算法 迭代 拉格朗日 导数 近似算法 维特比算法 Viterbi 树型结构 最优路径 放大 scaling 精度 范围 多样本原创 2022-12-13 16:55:26 · 625 阅读 · 0 评论 -
【机器学习】支持向量回归
支持向量回归 SVR 回归模型 支持向量机 管道 惩罚 拉格朗日 KKT 对偶 互补松弛 支持向量 几何意义 间隔 边界 超平面原创 2022-12-04 20:11:20 · 3846 阅读 · 3 评论 -
【机器学习】支持向量机【下】软间隔与核函数
支持向量机 SVM 硬间隔 对偶 拉格朗日 凸优化 线性可分 非线性可分 核函数 惩罚 正则化 超平面 KKT 条件 合页损失 hinge 损失函数 目标函数 决策函数 核技巧 核方法 软间隔 几何意义原创 2022-12-04 19:53:42 · 596 阅读 · 0 评论 -
【机器学习】支持向量机【上】硬间隔
支持向量机 SVM 硬间隔 对偶 拉格朗日 凸优化 线性可分 非线性可分 核函数 惩罚 正则化 超平面 KKT 条件 合页损失 hinge 损失函数 目标函数 决策函数 核技巧 核方法 软间隔 几何意义原创 2022-12-04 19:25:20 · 1227 阅读 · 0 评论 -
【机器学习】核函数
核函数 核方法 核技巧 kernel 正定核 希尔伯特空间 映射函数 基函数 高斯核函数 径向基函数 完备 内积 特征值分解 线性核 多项式核 拉普拉斯核 Sigmoid 核 向量空间 线性空间 Gram矩阵 半正定矩阵 柯西序列 非线性原创 2022-12-01 17:16:57 · 929 阅读 · 0 评论 -
【机器学习】拉格朗日对偶性
lagrange 拉格朗日 对偶 无约束 等式约束 不等式约束 凸优化 凸集 凸问题 凸函数 凹函数 二次规划 几何意义 原始问题 Primal Dual 强对偶 弱对偶 KKT条件 Slater条件 对偶间隙 最优解 可行域 拉格朗日乘数法 拉格朗日乘子原创 2022-11-26 16:12:13 · 1134 阅读 · 0 评论 -
【机器学习】主成分分析
PCA 主成分分析 最大投影方差 最小重构代价 特征值分解 奇异值分解 SVD 特征向量 特征值 中心化 规范化 相关性 投影面 投影方向 维数灾难 维数诅咒 降维 特征选择原创 2022-11-19 17:14:41 · 475 阅读 · 1 评论 -
【机器学习】线性分类【下】经典线性分类算法
广义线性模型 指数分布族 GLM 概率分布 线性回归 线性分类 逻辑回归 softmax logistics 泊松分布 对数线性模型 对数几率模型 高斯分布 伯努利分布 二项分布 充分性度量 二分类 多分类 多项分布 种类分布 感知机 口袋算法 pocket algorithm 线性判别分析 FDA LDA Fisher判别分析 高斯判别分析 GDA 朴素贝叶斯 半朴素贝叶斯 贝叶斯网原创 2022-11-15 23:32:41 · 959 阅读 · 3 评论 -
【机器学习】线性分类【上】广义线性模型
广义线性模型 指数分布族 GLM 概率分布 线性回归 线性分类 逻辑回归 softmax logistics 泊松分布 对数线性模型 对数几率模型 高斯分布 伯努利分布 二项分布 充分性度量 二分类 多分类 多项分布 种类分布 感知机 口袋算法 pocket algorithm 线性判别分析 FDA LDA Fisher判别分析 高斯判别分析 GDA 朴素贝叶斯 半朴素贝叶斯 贝叶斯网原创 2022-11-15 23:11:23 · 762 阅读 · 1 评论 -
【机器学习】线性回归【上】朴素最小二乘估计
机器学习 几何意义 向量空间 解方程 线性组合 频率派 贝叶斯派 LSE 矩阵 L1 L2 正则化 过拟合 模型参数减小 稀疏化 特征提取 一范数 二范数 权重衰减 黑塞矩阵 海瑟矩阵 Hessian 拉格朗日 神经网络 梯度下降 奇异值分解 伪逆 最大后验概率 MAP MLE 极大似然估计 最小二乘估计坐标下降法 次梯度 先验概率 惩罚原创 2022-11-02 21:22:25 · 563 阅读 · 1 评论 -
【机器学习】线性回归【下】正则化最小二乘估计
机器学习 L1 L2 正则化 过拟合 模型参数减小 稀疏化 特征提取 一范数 二范数 权重衰减 黑塞矩阵 海瑟矩阵 Hessian 拉格朗日 神经网络 梯度下降 奇异值分解 伪逆 最大后验概率 MAP MLE 极大似然估计 最小二乘估计坐标下降法 次梯度 先验概率 惩罚原创 2022-11-02 21:14:16 · 966 阅读 · 2 评论 -
【机器学习】左逆、右逆、伪逆和广义逆的概念理解
逆矩阵 左逆矩阵 右逆矩阵 伪逆 广义逆 单侧逆 M-P广义逆矩阵 穆尔-彭罗斯广义逆矩阵 Moore-Penrose SVD 奇异值分解 行满秩 列满秩 可逆矩阵原创 2022-11-01 12:53:07 · 2285 阅读 · 2 评论 -
【机器学习】EM 算法
EM 算法 机器学习 隐变量 Jensen 不等式 琴生不等式 凸函数 凹函数 梯度下降 GD 非梯度优化 区别原创 2022-10-24 17:48:17 · 933 阅读 · 4 评论 -
【机器学习】奇异值分解
奇异值分解 紧奇异值分解 截断奇异值分解 几何解释 计算过程 特征值分解 SVD EVD PCA原创 2022-10-15 10:42:02 · 956 阅读 · 2 评论 -
【机器学习】梯度下降法与牛顿法【Ⅰ】梯度下降法概述
梯度下降法 梯度 牛顿法 拟牛顿法 修正牛顿法 最速下降法 步长迭代原创 2022-09-12 18:03:49 · 750 阅读 · 0 评论 -
【机器学习】梯度下降法与牛顿法【Ⅲ】拟牛顿法
梯度下降法 梯度 牛顿法 拟牛顿法 修正牛顿法 最速下降法 步长迭代 Armijo原创 2022-09-12 18:02:49 · 501 阅读 · 0 评论 -
【机器学习】梯度下降法与牛顿法【Ⅱ】牛顿法与修正牛顿法
梯度下降法 梯度 牛顿法 拟牛顿法 修正牛顿法 最速下降法 步长迭代 Armijo原创 2022-09-12 17:51:04 · 938 阅读 · 1 评论 -
【机器学习】RNN 讲解
RNN 讲解原创 2022-09-03 14:32:45 · 485 阅读 · 2 评论 -
【机器学习】LSTM 讲解
LSTM 讲解原创 2022-09-08 20:13:34 · 1292 阅读 · 1 评论 -
【机器学习】聚类【Ⅴ】密度聚类与层次聚类
密度聚类亦称“基于密度的聚类”(density-based clustering),此类算法假设聚类结构能通过样本分布的紧密程度确定。通常情形下,密度聚类算法从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。DBSCAN (全称“Density-Based spatial Clustering of Applications with Noise”)是一种著名的密度聚类算法,它基于一组“邻域”(neighborhood)参数(ϵ,MinPts\epsilon,Mi原创 2022-08-18 11:47:41 · 651 阅读 · 0 评论 -
【机器学习】聚类【Ⅳ】高斯混合模型数学推导
高斯混合模型公式推导 详细 详解 均值 协方差 先验概率 EM算法原创 2022-08-18 11:32:14 · 455 阅读 · 4 评论 -
【机器学习】聚类【Ⅱ】原型聚类经典算法
原型聚类 k-means k-均值 k-modes 均值向量 优点缺点 k-prototype 混合属性聚类 k-mediods k-mediods 学习向量量化 LVQ 原型向量 算法 详细 讲解 迭代 距离 簇 EM算法 区别 离群点 汉明距离原创 2022-08-18 11:21:18 · 1519 阅读 · 1 评论 -
【机器学习】聚类【Ⅰ】基础知识与距离度量
聚类 无监督 性能度量 外部指标 Jaccard系数 FM 指数 Rand 指数 内部指标 DB指数 Dunn 指数 距离度量 闵可夫斯基 闵氏距离 明氏距离 欧几里得距离 欧式距离 切比雪夫距离 详细 讲解 非度量属性 无量纲化 标准化 归一化 ...............原创 2022-08-18 11:09:00 · 655 阅读 · 1 评论