- 博客(18)
- 资源 (1)
- 收藏
- 关注
原创 win7 python2.7环境下安装pypcap
最近在尝试利用python+pypcap+dpkt抓取IP数据包做应用流量分类,dpkt利用pip install 命令安装还是比较顺利,但是pypcap的安装费了很长一段时间,这里做一个总结。1、直接用pip install pypcap会报 pcap.h not found, 参考这篇博客(https://blog.youkuaiyun.com/bestboyxie/article/details/...
2018-05-20 22:03:43
1704
原创 构建Mahout开发环境
Mahout推荐引擎概况Mahout框架包含了一套完整的推荐系统引擎,标准化的数据结构,多样的算法实现,简单的开发流程。Mahout推荐的推荐系统引擎是模块化的,分为5个主要部分组成:数据模型,相似度算法,近邻算法,推荐算法,算法评分器。Mahoutt推荐算法,从数据处理能力上,可以划分为2类:1). 小数据量的单机内存算法实现2). 基于Hadoop的分步式算法实现:就是把单机内存算法并行化,把任
2018-01-25 01:15:53
371
原创 聚类
聚类是一种无监督算法,针对大量未知标注的数据集,按数据的相似性将数据分为多个类别,使类别内的数据相似性较大而类别间的数据相似度较小。若数据集已知标注,则可以利用聚类对数据降维操作。聚类算法分类:基于位置的聚类(kmeans\kmedians),基于密度的聚类(DBSCAN\最大密度聚类),基于图论的聚类(AP聚类\谱聚类)
2017-12-19 00:44:14
1540
原创 回归决策树
决策树是处理分类的常用算法,但它也可以用来处理回归问题,其关键在于选择最佳分割点,基本思路是:遍历所有数据,尝试每个数据作为分割点,并计算此时左右两侧的数据的离差平方和,并从中找到最小值,然后找到离差平方和最小时对应的数据,它就是最佳分割点。sklearn.tree.DecisionTreeRegressor函数即利用决策树处理回归问题,树的深度越高拟合效果越好,也更容易发生过拟合。
2017-11-11 23:46:07
510
原创 集成学习
集成学习(ensemble learning)不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。给定一个训练样本集,一般来说较容易得到粗糙的学习器,所谓的弱学习器,从弱学习算法出发,反复学习得到多个弱学习器,然后通过一定结合策略组合这些弱学习器,便可以得到一个强学习器。
2017-10-24 21:56:38
443
1
原创 随机森林
bagging是bootstrap aggregation的缩写,表示依靠自身的资源实现系统性能的提升,有时候我们用所有的样本训练也只能得到一个弱分类器,这个时候,我们可以通过多次对样本重抽样的方式得到不完全相同的样本建立多个弱分类器,由多个弱分类器投票结果觉得弱分类器属于哪一类,这就是bagging的思想。随机森林是在bagging的基础上做了改进,特征的选择也是随机的。
2017-10-16 19:42:43
414
原创 决策树
决策树是一种树形结构,其中的每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。它是以实例为基础的归纳学习,采用自顶向下的递归方法,基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点的熵值为零,此时每个叶节点中的实例都属于同一类。在学习过程中,仅需对训练实例做较好的标注,算法就能进行自学习。
2017-09-17 17:03:40
389
原创 Logistic回归
线性回归的输出值是一串连续值,但有时候希望输出值可以是0~1的连续值,这样的输出在某种程度上可以看做是概率,可以用于分类问题,Logistic回归通过sigmoid函数将连续值映射到区间(0,1),并划定一个阈值,大于阈值属于一类,小于或等于阈值属于另一类。Logistic回归属于线性回归的一种推广,属于广义线性回归,本质是对数线性回归。
2017-09-04 23:43:14
311
原创 局部加权线性回归
在线性回归中,有时候样本点对待估计点的预测有一定影响,离待估计点越近的点对待估计点的预测影响更大,而距离远的点则影响小点,所以需要引入参数衡量样本点与待估计点的相似度,这个相似度可以作为一个权值,表示对待估计点估计的权有多大,这样就得到局部加权线性回归(Locally weighted linear regression)。
2017-08-31 21:02:03
332
原创 模型评估
当我们得到一个机器学习模型,我们需要确定几个指标用来评估模型的预测能力。对于回归分析,主要有mse和R方。对于分类算法,评价指标主要有AUC,accuracy,precision等。本文主要介绍相关术语。
2017-08-29 20:54:05
1107
原创 梯度下降法
线性回归中参数解析式的求解涉及到矩阵的求逆,当特征矩阵数据量过大,求逆是一个很耗时的过程,根据梯度反方向是函数值下降最快的方向,我们可以使用梯度下降法绕过求逆的过程。
2017-08-22 00:27:10
675
原创 线性回归
回归(regression)是监督学习①^①的一个重要问题,是从输入空间到输出空间②^②的映射函数,等价于函数拟合:选择一条函数曲线使其很好的拟合已知数据且能很好的预测未知数据。在监督学习中,模型即为所要学习的条件概率分布或决策函数,线性回归的假设空间(hypothesis space)③^③,是由一个参数向量决定的函数族。
2017-08-15 23:54:35
353
自行车租赁预测
2017-09-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人