- 博客(6)
- 收藏
- 关注
原创 共享单车需求预测
共享单车需求预测数据集介绍数据集来自Kaggle的一个Playground竞赛。数据产生于记录了骑行时间,出发地点,到达地点,到达时间的共享单车传感器网络,其可用于研究城市中的移动特性。本次比赛中,参与者要求将历史使用情况于天气数据相结合,以便预测华盛顿特区的共享单车租赁需求。参数介绍datetime: hourly date + timestampseason: 1 = ...
2018-06-25 20:59:36
13005
11
原创 机器学习实战(八)——回归
线性回归拟合直线平方误差与最小二乘∑i=1m(yi−xTiw)2∑i=1m(yi−xiTw)2\sum_{i=1}^m(y_i-x_i^Tw)^2 其中,yiyiy_i为真实值,xTiwxiTwx_i^Tw为预测值。用矩阵表示:(y−Xw)T(y−Xw)(y−Xw)T(y−Xw)(y - Xw)^T(y-Xw) 为求得www,将上式求导: XT(Y−Xw)XT(Y−Xw)X^T...
2018-06-05 11:45:00
402
原创 机器学习实战(十)—— K-均值
K-Means术语簇: 所有数据点点集合,簇中的对象是相似的。质心: 簇中所有点的中心(计算所有点的均值而来).SSE: Sum of Sqared Error(平方误差和), SSE 值越小,表示越接近它们的质心. 由于对误差取了平方,因此更加注重那么远离中心的点.K-均值聚类算法类别未知,发现数据集的内在联系工作流程首先, 随机确定 K 个初始点作为质心(...
2018-06-05 11:41:52
642
原创 机器学习实战(七)——利用AdaBoost元算法提高分类性能
AdaBoost概述地将不同的分类器组合起来,而这种组合结果则被成为集成方法(ensemble method)或者元算法(meta-algorithm)。使用集成方法时会有多种形式:可以是不同算法的集成,也可以是同一种算法在不同设置下的集成,还可以是数据集不同部分分配给不同分类器之后的集成。基于数据集多重抽样的分类器bagging: 基于数据随机重抽样的分类器构建方法...
2018-05-30 22:04:27
457
原创 机器学习实战(六)——SVM
支持向量机线性分类分类标准考虑二分类的问题,数据点用xxx表示,这是一个nnn维向量,类别用yyy来表示,取值为-1或1(与Logistc相同), 分别代表两个不同的类。一个线性分类器的学习目标就是要在nnn维的数据空间中找到一个分类超平面,其方程为:wTx+b=0wTx+b=0w^Tx+b=0 特别的,对于二维平面,超平面方程为[a b][x1x2]+b=0[a&...
2018-05-21 13:54:01
738
原创 机器学习实战(五)——Logistic回归
Logistic回归SSS函数σ(z)=11+e−zσ(z)=11+e−z\sigma(z) = \frac{1}{1 + e^{-z}} 其中z=w0x0+w1x1+w2x2+⋯+wnxnz=w0x0+w1x1+w2x2+⋯+wnxnz = w_0x_0 + w_1x_1 + w_2x_2 + \dots + w_nx_n www为需求解的回归系数,xxx为特征。 写成向量形式...
2018-05-20 11:58:24
315
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人