机器学习
机器学习基础算法与数据基本处理
pyorz
python 爱好者
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习-12-最大熵模型
Logistic回归和最大熵模型 都属于对数线性模型 (log linear model)。 当类标签(class label)只有两个的时候,最大熵模型就是 logistic 回归模型。 学习它们的模型一般采用极大似然估计或者正则化的极大似然估计。Logistic 回归和最大熵模型学习可以形式化为无约束最优化问题。 ...原创 2020-10-30 11:26:57 · 189 阅读 · 0 评论 -
机器学习-11-k近邻算法
给定一个数据集,对新的输入样本,在数据集中找到与新的输入样本距离最近的k个样本,将这k个样本中最多数属于某个类的那个类别当作新的输入样本的类别。 距离度量 欧式距离:D=(x2−x1)2+(y2−y1)2D=\sqrt{(x_2-x_1)^2+(y_2-y_1)^2}D=(x2−x1)2+(y2−y1)2 曼哈顿距离:D=∣x2−x1∣+∣y2−y1∣D=|x_2-x_1|+|y_2-y_1|D=∣x2−x1∣+∣y2−y1∣ 余弦值 实现 K近邻最简单的实现就是直接遍历整个数据集,原创 2020-10-29 19:23:48 · 188 阅读 · 0 评论 -
机器学习-10-线性回归与最小二乘法
超明白最小二乘法-公式推导 再写一遍:一可以加深理解和记忆,二练习latex语法,三后面latex公式直接从这里套用。 设拟合直线的方程式为:y=a+bxy=a+bxy=a+bx $y=a+bx$ 现有样本(x1,y1),(x2,y2)...(xn,yn)(x_1,y_1),(x_2,y_2)...(x_n,y_n)(x1,y1),(x2,y2)...(xn,yn) $(x_1,y_1),(x_2,y_2)...(x_n,y_n)$ 设did_idi为样本点到拟合线的距离,原创 2020-10-28 15:58:45 · 974 阅读 · 0 评论 -
机器学习-09-XGBoost
集成学习 梯度提升原创 2020-10-17 09:31:59 · 101 阅读 · 0 评论 -
机器学习-08-回归算法
线性回归 非线性回归原创 2020-10-17 09:29:55 · 247 阅读 · 0 评论 -
机器学习-07-概率分类-朴素贝叶斯
联合概率与条件概率原创 2020-10-17 09:28:00 · 199 阅读 · 0 评论 -
机器学习-06-支持向量机-SVM
线性SVM 非线性SVM与核函数原创 2020-10-17 09:24:58 · 122 阅读 · 0 评论 -
机器学习-05-聚类算法-Kmeans
聚类算法原创 2020-10-16 16:51:13 · 189 阅读 · 0 评论 -
机器学习-04-逻辑回归 LogisticRegression
二元逻辑回归原创 2020-10-16 16:49:05 · 143 阅读 · 0 评论 -
机器学习-03-降维算法PCA、SVD
PCA 主成分分析 SVD 奇异值分解原创 2020-10-16 16:47:49 · 128 阅读 · 0 评论 -
机器学习-02-随机森林
随机森林原创 2020-10-16 09:52:47 · 162 阅读 · 0 评论 -
机器学习-01-决策树
决策树原创 2020-10-16 09:22:00 · 117 阅读 · 0 评论 -
机器学习-特征工程-feature engineering
数据挖掘的五大流程: 获取数据 数据预处理数据预处理是从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程可能面对的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断。也可能,数据的质量不行,有噪声,有异常,有缺失,数据出错,量纲不一,有重复,数据是偏态,数据量太大或太小数据预处理的目的:让数据适应模型,匹配模型的需求 特征工程:特征工程是将原始数据转换为更能代表预测模型的潜在问题的特征的过程,可以通过挑选最相关的特征,提取特征以及创造特征来实现。其中创造特征又原创 2020-10-16 09:20:33 · 246 阅读 · 0 评论 -
机器学习-数据预处理-preprocessing
1. 数据无量纲化 2. 缺失值处理 3. 处理分类特征:编码与哑变量 4. 处理连续型特征:二值化与分段原创 2020-10-16 09:18:27 · 176 阅读 · 0 评论
分享