自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (1)
  • 收藏
  • 关注

转载 使用sklearn进行增量学习

问题实际处理和解决机器学习问题过程中,我们会遇到一些“大数据”问题,比如有上百万条数据,上千上万维特征,此时数据存储已经达到10G这种级别。这种情况下,如果还是直接使用传统的方式肯定行不通,比如当你想把数据load到内存中转成numpy数组,你会发现要么创建不了那么大的numpy矩阵,要么直接加载时报MemeryError。 在这种情况下我了解了几种选择办法,1. 对数据进行降维,2. 使用流式或...

2018-03-13 16:08:34 1225 2

转载 预处理数据的方法总结(使用sklearn-preprocessing)

预处理数1. 标准化:去均值,方差规模化Standardization标准化:将特征数据的分布调整成标准正太分布,也叫高斯分布,也就是使得数据的均值维0,方差为1.标准化的原因在于如果有些特征的方差过大,则会主导目标函数从而使参数估计器无法正确地去学习其他特征。标准化的过程为两步:去均值的中心化(均值变为0);方差的规模化(方差变为1)。在sklearn.preprocessing中提供了一个sc...

2018-03-13 16:00:54 758

转载 为VMware虚拟机内安装的Ubuntu 16.04设置静态IP地址并且上网

1.安装环境VMware 10.0.4 build-2249910Ubuntu 16.04 x86_642.在VMware中,配置网络环境VMware在默认安装完成之后,会创建三个虚拟的网络环境:VMnet0、VMnet1和VMnet8。其类型分别为:桥接网络,Host-only和NAT。其中,NAT表示VMWware内安装的Ubuntu将会在一个子网中,VMware通过网络地

2017-10-13 22:04:35 711

原创 Ubuntu16.04+Spark单机环境搭建

最近学习spark,首先就要搭建它的运行环境了。自己看了无数教程,均无可以无错运行的。最后搭建成功真是整合了好多人的教程才成功的。整理一下,防止以后踩坑。Windows环境下搭建无数踩坑,直接放弃。本文在Ubuntu16.04虚拟机上进行搭建。贴一篇比较有价值的spark环境搭建教程。http://blog.youkuaiyun.com/u010171031/article/details/51849562

2017-09-23 11:18:26 798

原创 完美解决Ubuntu16.04虚拟机窗口全屏问题

相信很多人在装虚拟机的时候,遇到了窗口过小不能自适应的问题。我也是查了好多资料,都说安装Vmware Tools即可解决,还有说修改分辨率也可以。两种方法亲测无效。Vmware Tools工具官方已经不建议。更提倡开源的open-vm-tools,所以我安装了这个:    sudo apt-get installopen-vm-tools 第二步(关键在这一步

2017-09-15 17:39:44 34689 22

原创 机器学习实战之决策树

在《机器学习实战》决策树这一章的时候,有些地方的代码有点看不太懂,看了几篇博客,还是未解。最后仔细看书,发现自己不懂数据集的组织方式。希望大家看的时候也注意一下。在决策树函数调用的数据要满足如下要求:1、数据必须是由列表元素组成的列表,所有的列表元素都要具有相同的数据长度;2、数据(也就是数据集中的实例)的最后一列或者每个实例的最后一个元素是当前实例的类别标签。      满足如上要求

2017-03-31 09:49:15 646

基于spark的电影推荐系统的数据集

推荐系统常用的电影数据集,推荐系统常用的电影数据集。

2017-12-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除