
每日学习
Miracle_520
坚持每天读几页书
展开
-
(十三)RNN的理解
RNN原创 2020-04-11 19:53:46 · 321 阅读 · 0 评论 -
(十二)BN和LN
文章目录一、基于规则的方法二、基于监督学习的方法三、Bootstrap算法四、Snowball一、基于规则的方法优点:比较准确不需要训练数据缺点:low recall rate,(覆盖问题),覆盖范围小,很多规则人想不到成本(人力)规则本身难以设计(规则不冲突,规则不冗余)二、基于监督学习的方法定义关系类型定义实体类型训练数据准确实体标记好(类型)...原创 2020-04-11 19:51:00 · 5054 阅读 · 2 评论 -
(十一)关系抽取方法
文章目录一、基于规则的方法二、基于监督学习的方法三、Bootstrap算法四、Snowball一、基于规则的方法优点:比较准确不需要训练数据缺点:low recall rate,(覆盖问题),覆盖范围小,很多规则人想不到成本(人力)规则本身难以设计(规则不冲突,规则不冗余)二、基于监督学习的方法定义关系类型定义实体类型训练数据准确实体标记好(类型)...原创 2020-04-10 11:23:49 · 578 阅读 · 0 评论 -
(十)特征编码-Feature Encoding
类别特征(categorial Feature)- 男(0,1)- 女(1,0)- one-hot encoding连续型特征- 身高、温度- A:直接用(归一化):0,1归一化、N(0,1)高斯归一化- B:离散化:one-hot encoding- 150-160 160-170 170-180- 1 2 ...原创 2020-04-09 22:52:50 · 1106 阅读 · 0 评论 -
(九)GD、L1和L2、MAP、MLE、Lasso
文章目录一、GD二、从LR看L1、L22.1 模型复杂度2.2 正则三、K折交叉验证四、MAP与MLE五、Lasso Regression一、GDGD:梯度稳定,所有样本的梯度SGD:梯度不稳定(一个样本,可能为噪声样本),学习率要小mini-batch GD:折中方案既不考虑所有样本,节省时间成本相对稳定,M需要去尝试二、从LR看L1、L2当给定的数据线性可分的...原创 2020-04-09 22:13:06 · 760 阅读 · 0 评论 -
(0)NLP的流程
文章目录一、NLP项目的Pipeline二、word segmentation2.1 最大匹配算法(max matching)2.2 Incorporate Semantic三、文本表示3.1 one-hot representation3.2 Distributed Representation3.3 文本相似度四、建模方法4.1 Noisy channel Model4.2 LM4.3 语料库...原创 2020-04-09 19:41:35 · 532 阅读 · 0 评论 -
(八)什么是P、NP、NP-hard问题?
P问题: 在多项式复杂度下,可以解决的问题NP问题:在多项式复杂度下可以verify的问题(可验证) - 给一个解,可在多项式复杂度内验证解是否正确 - 例如:密码问题NP-hard问题:指数级复杂度问题- 对于小型问题,可以解决- 采用近似算法解决(可能无法获得精确解) - 指出近似算法 - 指出时间复杂度 - 给出近似算法最后给出的解,离我们想要的最优解有多...原创 2020-04-09 17:48:24 · 434 阅读 · 0 评论 -
(零)重要问题
lightgbm, xgboost RF和GBDT的异同(对于ID3,C4.5,CART也要了解,对于xgb的算法原理要充分理解,比如损失函数的推导过程,为什么要使用二阶泰勒展开。最好有一些调参经验)svm损失函数推导朴素贝叶斯公式推导与实现处理不平衡常用方法处理不平衡数据的基本方法机器学习如何处理不平衡数据卷积层相比FC层有哪些优势?fc全连接层的作用...原创 2020-04-07 21:35:42 · 317 阅读 · 0 评论 -
(七)判别式模型与生成式模型
文章目录一、概念二、例子三、优缺点3.1 生成方法3.2 判别方法3.3 两者的区别和联系四、模型实例4.1 生成式模型4.2 判别式模型一、概念对于输入x,类别标签y:产生式模型估计它们的联合概率分布P(x,y)判别式模型估计条件概率分布P(y|x)产生式模型可以根据贝叶斯公式得到判别式模型,但反过来不行。生成模型估计的是联合概率分布,然后求出条件概率分布P(Y|X)作为预测的模...原创 2020-04-07 20:51:39 · 638 阅读 · 0 评论 -
(六)RF、GBDT、XGBoost
文章目录一、RF1.1 原理1.2 优缺点二、GBDT2.1 原理2.2 优缺点三、XGBoost3.1 原理四、GBDT和XGBoost区别RF、GBDT和XGBoost都属于集成学习,集成学习的目的是通过结合多个基学习器的预测结果来改善单个学习器的泛化能力和鲁棒性。根据个体学习器的生成方式,目前的集成学习方法大致分为两大类:Boosting:个体学习器之间存在强依赖关系、必须串行生成的...原创 2020-04-07 19:58:48 · 785 阅读 · 0 评论 -
(五)Bert
文章目录一、Bert的基本原理是什么?二、BERT 是怎么用 Transformer 的?三、BERT 的训练过程是怎么样的?3.1 Masked LM3.2 Next Sentence Prediction四、为什么 BERT 比 ELMo 效果好?ELMo 和 BERT 的区别是什么?4.1 为什么 BERT 比 ELMo 效果好?4.2 ELMo 和 BERT 的区别是什么?五、BERT 有...原创 2020-04-06 21:45:21 · 1612 阅读 · 0 评论 -
(四)Transformer中的关键
文章目录一、Transformer的结构是什么样的?1.1 Encoder端&Decoder端总览1.2 Encoder端各个子模块1.2.1 多头self-attention模块1.2.2 前馈神经网络模块1.3 Decoder端各个子模块1.3.1 多头self-attention模块1.3.2 多头Encoder-Decoder attention 交互模块1.3.3 前馈神经网络模...原创 2020-04-06 20:36:43 · 1911 阅读 · 0 评论 -
(三)ELMO
文章目录一、ELMO的基本原理二、ELMO的训练过程是什么样的?损失函数是什么?三、ELMO训练好之后如何使用?四、ELMO的优点是什么?ELMO为什么有效?五、ELMO为什么能够达到区分多义词的效果?六、ELMO把三种不同的向量叠加的意义是什么?这样做能达到什么样的效果?ELMO一、ELMO的基本原理ELMO采用了典型的两阶段过程:第一个阶段是利用语言模型进行预训练第二个阶段是在做下...原创 2020-04-06 16:57:12 · 560 阅读 · 0 评论 -
(二)SVM的核心问题
这里写目录标题一、SVM简介二、SVM为什么采用间隔最大化(与感知机的区别)三、SVM的目标(硬间隔)四、求解目标(硬间隔)五、软间隔六、核函数七、如何选择核函数八、关于支持向量机的问题1. KKT条件2. 支持向量3.为什么将原问题转换为对偶问题九、为什么SVM对缺失数据敏感十、SVM的优缺点一、SVM简介SVM是一种二分类模型。它的基本思想是在特征空间中寻找最大的分离超平面使得数据二分类。...原创 2020-04-05 13:32:44 · 1008 阅读 · 0 评论 -
(一)逻辑回归
逻辑回归一、逻辑回归的假设1.关于数据的假设2.关于正类概率计算的假设二、逻辑回归的损失函数三、逻辑回归的求解方法1.批梯度下降2.随机梯度下降3.小批量梯度下降4.上述模型存在的问题4.1 如何对模型选择合适的学习率4.2 如何对参数选择合适的学习率四、逻辑回归的目的五、逻辑回归如何进行分类六、逻辑回归为什么用极大似然函数作为损失函数七、为什么在训练过程中将高度相关的特征去掉?八、逻辑回归的优缺...原创 2020-04-04 19:53:30 · 646 阅读 · 0 评论