
机器学习
Ryiiiin
一个喜欢刘人语的人。
展开
-
[百面机器学习]特征工程QA
目录1、为什么需要对数值类型进行归一化2、如何处理类别特征3、什么是组合特征,如何处理高维组合特征4、怎么样有效找到特征组合5、文本模型有哪些,各有什么优缺点6、如何缓解图像分类任务中数据不足的问题7、W2V是如何工作的,和阴狄利克雷模型有什么区别和联系?1、为什么需要对数值类型进行归一化对梯度下降有很大的影响。2、如何处理类别特征1)序号编码 2)On...原创 2019-02-27 20:23:43 · 227 阅读 · 0 评论 -
[机器学习笔记] 5.神经网络
本章节阐述了神经网络的基本概念5.1 神经元模型MP神经元模型,激活函数5.2 感知机与多层网络单层网络,多层网络(包含隐层)5.3 误差逆传播算法(BP)这一部分讲的是如何使用BP算法来调整参数(阈值,权值)5.4 全局最小与局部最小当可能面对多个局部最小时,使用模拟退火,多初始值等方法来避免此种情况5.5 其他常见的神经网络RBF网络,ART网络(竞争网...原创 2019-04-17 14:06:45 · 168 阅读 · 0 评论 -
[机器学习笔记] 6.支持向量机
这一部分讲的是支持向量机的基本概念,重点在于软硬间隔,对偶方法以及核技巧6.1 间隔与支持向量几何间隔,学习策略6.2 对偶问题拉格朗日对偶求解,SMO优化算法6.3 核函数X映射,低维到高维映射,常用核函数类型6.4 软间隔与正则化各种损失函数,引入损失函数后的对偶问题6.5 支持向量回归基于回归隔离带的对偶问题6.6 核方法没看懂...重点需...原创 2019-04-17 15:15:13 · 140 阅读 · 0 评论 -
[机器学习笔记] 3.线性模型
这一部分讲的是线性模型相关的内容。3.1 基本形式3.2 线性回归感知机3.3 对数几率回归Logistic回归,估计w和b3.4 线性判别分析LDA投影方法3.5 多分类学习OvO,OvR,MvM3.6 类别不平衡问题...原创 2019-04-14 23:41:55 · 108 阅读 · 0 评论 -
[机器学习笔记] 9.聚类
这一部分介绍了聚类这一无监督学习的概念和基本方法9.1 聚类任务介绍了聚类是什么,两个基本问题,多种代表性算法9.2 性能度量几个指标,镞内距离,镞间距离等9.3 距离计算有序元素的距离计算,无序元素的距离计算9.4 原型聚类K均值聚类,LVQ学习向量量化,高斯混合聚类*9.5 密度聚类核心对象,密度直达,密度可达,密度相连9.6 层次聚类AGNES...原创 2019-05-05 21:01:11 · 187 阅读 · 0 评论 -
[机器学习笔记] 10.降维与度量学习
这一部分主要讲述了有哪些比较基本的降低维度的方法10.1 K近邻学习10.2 低维嵌入10.3 PCA10.4 核化线性降维10.5 流形学习10.6 度量学习这一部分每太怎么理解,还是先看一些其他资料补充一下。...原创 2019-05-06 20:57:34 · 318 阅读 · 0 评论 -
[机器学习笔记] 11.特征选择与稀疏学习
11.1 子集搜索与评价子集选择,子集评价11.2 过滤式选择11.3 包裹式选择11.4 嵌入式选择与L1正则11.5 稀疏表示与字典学习11.6 压缩感知这都啥乱七八糟的...原创 2019-05-06 21:14:04 · 169 阅读 · 0 评论 -
[Linux]从头开始详细记录搭建一个LINUX环境(python,anaconda,keras,TensorFlow,HADOOP)
0、前期准备使用的系统:ubuntu-14.04.6使用的虚拟机:VMWARE 9之所以选择这个系统和虚拟机是因为相对稳定。我18版本开始尝试,最后选择了14版本,安装快捷容易。不适用最新版是因为这个还是练手,希望比较稳定,参考资料比较多。1、安装操作系统先建立一个虚拟机,然后在设定好之后,把CD设置为UBUNTU的ISO,安装即可。(这里的语言必须设定成英文的!不然之后会遇到...原创 2019-05-22 00:02:59 · 196 阅读 · 0 评论 -
[机器学习笔记] 4.决策树
在这一部分,讲述了决策树的基本模型,涉及到建立决策树、剪枝二叉树以及其他问题。4.1 基本流程4.2 划分选择信息增益,信息增益率,GINI系数4.3 剪枝处理预剪枝,后剪枝4.4 连续与缺失值对于连续可以选择某一点进行01划分,对于缺失值可以根据属性的缺失情况而非样本来进行划分。4.5 多变量决策使用特征组合来划分决策树这部分来看,信息增益、信息增益率和G...原创 2019-04-16 00:37:42 · 103 阅读 · 0 评论 -
[机器学习笔记] 2.模型的评估与选择
这一部分涉及到在训练出一个模型后,到底该如何评估这个模型的好坏程度以及该选择哪个模型。2.1 经验误差与过拟合2.2 评估方法划分训练集和测试集:留出法,交叉验证法,有放回采样法(自主法)参数调整2.3 性能度量错误率/精度,查准率/查全率/PR曲线(正确正例/预测正例,正确正例/实际正例)/F1,ROC(错误正例/实际反例,实际正例/实际正例)/AUC,代价敏感错误率与代...原创 2019-04-12 11:56:37 · 128 阅读 · 0 评论 -
[Kaggle]House Prices: Advanced Regression Techniques
1、背景说明2、前期准备3、程序设计4、知识点说明5、测试结果6、总结7、附录:解释特征1、背景说明1.1 项目名称:House Prices_Advanced Regression Techniques https://www.kaggle.com/c/house-prices-advanced-regression-techniques1.2 实现目标:...原创 2019-03-13 15:04:57 · 1861 阅读 · 0 评论 -
[百面机器学习]经典算法Q&A
目录1、LR想必线性回归,有何异同?2、决策树有哪些常用的启发函数?3、线性可分的两类点在SVM分类超平面上的投影仍然线性可分吗?4、证明存在一组参数使得高斯核SVM的训练误差为95、LR处理多标签分类问题6、如何对于决策树进行剪枝?7、误差为0的SVM的分类器一定存在?1、LR相比线性回归,有何异同?LR是分类问题,线性回归是回归问题LR的因变量是离...原创 2019-03-17 22:11:15 · 225 阅读 · 0 评论 -
使用机器学习的方法对于在线评论进行情感分析
本项目的目的是:通过运用机器学习的方法,设计在线评论的情感分析模型,并且分析其效果。分为如下几个部分:目录1、在线评论情感分析系统的简单介绍2、特征工程3、所采用的机器学习方法4、测试分析5、结论1、在线评论情感分析系统的简单介绍 本篇研究的内容是通过机器学习方法来研究文本评论内容中的情感倾向性。众所周知,网络中的评论是非常重要的,但是它的量很大,所以大部分评...原创 2019-03-13 15:04:15 · 4861 阅读 · 0 评论 -
对于主干路的拥堵态势预测研究
这个程序是我在研一的时候,当时和世纪高通公司有合作,他们给我提供数据,我来做的一个课题。 我们的目标是根据已有的交通数据来建立一个拥堵情况预测的模型。整个过程大概可以分为如下步骤:1、解读原始数据2、数据的预处理3、特征工程4、建模评估5、测试模型解读原始数据:因为之前对于这方面还没有了解,所以面对这些数据是一头雾水的。在原始数据中...原创 2019-03-13 15:04:37 · 992 阅读 · 1 评论 -
[百面机器学习]集成学习Q&A
目录1、集成学习分为哪几种?有何异同?2、集成学习有哪些基本步骤?请举例说明3、常用的基分类器有什么?4、随机森林中的基分类器是否能替换成线性或者K临近?5、偏差和方差是什么意思?6、如何从减小方差和偏差的角度来解释BOOSTING和BAGGING?7、GBDT的基本原理是什么?8、梯度提升和梯度下降的区别和联系是什么?9、XGBOOST和GBDT的联系和区别有...原创 2019-03-22 21:52:24 · 121 阅读 · 0 评论 -
[Kaggle]Digit Recognizer
地址:https://www.kaggle.com/c/digit-recognizer这同样是一道入门的KAGGLE题目。题目大意是给出一系列的灰度图像(用CSV表格表示像素),来预测该图像是何种数字。这是一个比较经典的图片,对应的方法有很多。可以使用传统的机器学习算法来进行计算,也可以使用深度学习的方法进行。在这一次我使用的是机器学习的SVC(线性支持分类器)来进行处理的。第一步依然是...原创 2019-04-07 21:44:32 · 247 阅读 · 0 评论 -
[Kaggle]Titanic: Machine Learning from Disaster
这是关于KAGGLE上的最基本入门项目,泰坦尼克求生。不过我一开始陷入了误区,整个预测的概率都在80上下,实在无法理解那些能达到90+甚至100的人是如何做到的。后来才发现网上能找得到获救者名单...晕。不过想想也是,就算一个人的条件都符合最可能会下来的情况,那他的生存概率也不是100,只是比别人更大而已。言归正传,开始来说这个项目。这个项目就是给你一个获救/遇难者的名单,差不多890多人,然...原创 2019-04-02 13:15:11 · 189 阅读 · 0 评论 -
[机器学习笔记]绪论
1、基本术语2、假设空间3、归纳偏好4、发展历程5、应用现状总的来说,作为绪论来讲实在没啥干货,可以粗略的跳过。原创 2019-04-12 00:49:47 · 110 阅读 · 0 评论