
机器学习
SmartShylyBoy
这个作者很懒,什么都没留下…
展开
-
100-Days-Of-ML oneday
这个博客是基于github上项目,Avik Jain致力于通过这个项目,让机器学习入门者学习机器学习的理论与实战,话不多说,现在开始:https://github.com/Avik-Jain/100-Days-Of-ML-Code注意:1、pandas包生成的DF使用切片方式不同于python中的切片([:],包左不包右),DF.loc[0:3] 一共是四行2、pandas中的df.co...原创 2019-05-28 18:28:16 · 407 阅读 · 0 评论 -
啥是回归?
今天突然想搞清楚这个问题,遂搜索了一下,现总结如下。这一概念的英文是“regression”,是由高尔顿(Galton)在1886年的论文Regression towards Mediocrity in Hereditary Stature中提出的。论文基于对父亲和儿子身高的研究,发现子辈的平均身高是父辈平均身高与父辈所在族群的平均身高的加权平均和。子辈的平均身高 = 父辈平均身高 * 权重...原创 2019-06-04 17:32:29 · 650 阅读 · 0 评论 -
ML binning
一、分箱:数据分箱(也称为离散分箱或者分段)是一种数据预处理的方法,用于减少次要观察误差的影响,是一种将多个连续值分为较少数量的分箱的方法。1.1离散化:,把无限空间中有限的个体映射到有限的空间中去,以此提高算法的时空效率。通俗的说,离散化是在不改变数据相对大小的条件下,对数据进行相应的缩小。例如:原数据:1,999,100000,15;处理后:1,3,4,2;原数据:{100,200...转载 2019-06-19 17:09:13 · 378 阅读 · 0 评论 -
ML100day_fourDay 逻辑回归
原创 2019-06-03 18:15:57 · 164 阅读 · 0 评论 -
100-Days-Of-ML twoday
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltdataset = pd.read_csv(‘C:\Users\Administrator\Desktop\ml 100day\MLDayTwoData.csv’)#创建X和Y,注意一点dataframe切片包左不包右X = dataset.iloc[...原创 2019-06-03 14:03:41 · 215 阅读 · 0 评论 -
降维
一、为什么要降维?举个例子两个特征“千克”,“磅”。可以发现,虽然是两个变量,但它们传达的信息是一致的,即物体的重量。所以我们只需选用其中的一个就能保留原始意义,把2维数据压缩到1维,这样的好处减少矩阵大小,在集合中就是减少维度,减少计算量,减少共线性。二、降维技术降低数据维度的方法主要有两种仅保留原始数据中最相关的变量(特征选择)寻找一组较小的新变量,其中每个变量都是输入变量的组合...原创 2019-06-13 20:25:12 · 1952 阅读 · 1 评论 -
ML 100day servenday(SVM )
SVM(Support Vector Machines)支持向量机一、什么是SVM?他是个有监督的机器学习算法,和KNN一样可用于分类和回归分析,最主要是用在分类问题中。在这个算法中,更具特征值,构建n维空间(其中n即是特征的数量),吧每个数据投影到此空间内。二、数据如何分类?通过查找一个超平面,把数据区分为两类。换句话说,算法输出一个最佳超平面,用于数据分类三、什么是最佳超平面对SVM...原创 2019-06-06 17:08:31 · 183 阅读 · 0 评论 -
ML 100Day sixday KNN算法
1、KNN算法:k最近邻(K-NearestNeighbor,KNN)分类算法的核心思想是如果一个样本在特征空间中的k个最相似(即特征空间中的最临近)的样本中大多数属于某一个类别,则该样本也属于这个类别。KNN算法不仅可以用于分类,还可以用于回归,通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值付给该样本,作为预测值最后一步是投票选出出现频率最大的“”"NearestNeighb...原创 2019-06-06 13:54:57 · 199 阅读 · 0 评论 -
python数据结构、numpy、pandas、matplotlib
与Python列表不同,NumPy受限于所有包含相同类型的数组。如果类型不匹配,NumPy将尽可能向上转换(此处,整数向上转换为浮点数)网址https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/02.01-Understanding-Data-Types.ipynbhttps://github....原创 2019-06-12 16:47:57 · 235 阅读 · 0 评论 -
ML 9day 开始无监督学习 聚类算法 K-means clustering.
先看一个flush动画http://shabal.in/visuals/kmeans/6.html如图所示,数据样本用圆点表示,每个簇的中心点用叉叉表示。(a)刚开始时是原始数据,杂乱无章,没有label,看起来都一样,都是绿色的。(b)假设 数据集可以分为两类,令K=2,随机在坐标上选两个点,作为两个类的中心点。(c-f)演示了聚类的两种迭代。先划分,把每个数据样本划分到最近的中心点 那一...原创 2019-06-12 16:46:17 · 294 阅读 · 0 评论 -
回归和分类的区别
回归是定值 分类是定性Q:分类与回归的区别就是离散和连续的区别吗?A:这两者的区别完全不在于连续与否啊,而在于损失函数的形式不同啊!https://www.zhihu.com/question/21329754...原创 2019-06-11 18:22:52 · 334 阅读 · 0 评论