
数据挖掘
alittlebirdsd
这个作者很懒,什么都没留下…
展开
-
Python中Numpy基础
numpy的功能:提供数组的矢量化操作,所谓矢量化就是不用循环就能将运算符应用到数组中的每个元素中。提供数学函数应用到每个数组中元素提供线性代数,随机数生成,傅里叶变换等数学模块numpy数组操作numpy.array([],dttype=)生成ndarry数组,dttype指定存储数据类型numpy.zeros((3,4))生成指定元素0的3行4列矩阵。numpy.原创 2018-01-29 13:51:05 · 11866 阅读 · 0 评论 -
使用selenium自动化测试工具进行页面信息的抓取遇到的坑
为什么选择使用selenium?selenium是一个Web程序测试工具,selenium能解析js,而我平常写的简单爬虫都是爬静态页面,即原始的html,当js改变html的元素时,如果依照原来的那个爬取的html来弄就会出错。selenium支持多种浏览器,Chrome,Firefox,Phantomjs(已经被弃用了,可以使用其他浏览器的无头模式)。重要的事说三遍,Chrome是真的快!C原创 2018-01-09 00:20:46 · 2527 阅读 · 0 评论 -
数据挖掘十大算法之C4.5决策树
C4.5决策树C4.5决策树属于分类算法,基于信息增益率来选择样本划分特征,每次根据这个特征将样本划分到不同的集合中。了解信息增益率信息增益率=信息增益/分裂信息度量 ,信息增益是ID3分类决策树的划分样本特征,它的缺点在于倾向于选择特征取值多的特征作为划分标准,从信息增益的计算可以看出来(稍后说明),而分裂信息度量等于各种特征的取值所占比例*它的对数之和的负数,因为比例一定小于等于1,所以对数为原创 2018-04-17 11:01:42 · 460 阅读 · 0 评论 -
数据挖掘十大算法之k均值聚类算法
K-Means算法K-Means是一种聚类算法,属于无监督学习方法的一种。也是基于原型的聚类算法。简单的介绍就是选取k个中心点,形成簇,然后不断更新中心点,直至簇不再改变。算法流程随机生成k个初始点作为中心点将数据集中的数据按照距离中心点的远近分到各个簇中将各个簇中的数据求平均值,作为新的中心点,重复上一步,直到所有的簇不再改变距离的选择欧氏距离 每个维度的差的平方之和曼哈顿距离 每个维原创 2018-04-17 20:38:20 · 1044 阅读 · 0 评论