- 博客(6)
- 资源 (2)
- 收藏
- 关注
原创 根据股票涨跌用KMeans进行分类
今早刚得到一份2890支股票2013年9月30日至今的交易数据,数据量还行,共有170m左右。趁着热乎劲,想做一些分析。分析思路很简单,就是通过股票的涨跌情况,进行聚类分析。看看哪些股票种类是相似的,对于一些异常的股票,可以进一步挖掘分析。这里用到的算法是KMeans。KMeans的原理很简单,这里就不详述了,不清楚的同学请使劲戳这里KMeans主要的参数主要有这几个:k(中心点的个数),iter(
2016-09-28 15:25:52
4298
1
原创 FTP数据入库Hive
哦哦哦,我本是对数据挖掘有着无限的兴趣,现在却从事大数据处理的工作,但是上班是上班,平时依然奋发向上,自学机器学习的东西。但是作为一名非常合格的员工(哈哈,很有不要脸的气质,这很Sunnyin),不能总是在自己博文中记录其他的学识吧,万一哪天被老大看到,岂不得让我雨露均沾,受得万般恩宠。。。。好了,今天的废话又是说的如此到位,下面进入正题。也就是我现在的这个loooooooooooow项目的数据处理
2016-09-10 20:13:22
3356
原创 通过多项式来拟合股票收盘价的趋势图
最近在研究Numpy,其功能非常强大,通过线性代数运算避开了很多的循环,从而使计算效率得到了明显的提高。 接下来,我就简单讲解一下,如果通过numpy构造多项式来拟合股票收盘价的趋势图。(如果有哪位朋友对这篇博文有兴趣,希望能够留下您的宝贵建议,我们一起交流学习。)手上有一份数据,是创业环保(股票代码:600874)在8月份的交易行情数据: 其中第4个字段为每天的收盘价。 通过numpy中
2016-09-10 19:18:39
7384
1
原创 python爬虫——构建代理ip池
今年6月份开始的自己的数据分析项目,到现在已经快3个月的时间了。因为中间停歇了两个月的时间,导致现在依然滞留在数据采集那一部分,还好这两天又有了时间来折腾折腾。 我看到有网友说利用python Scrapy框架可以很方便,并且可以伪造ip,以来防止网站的反爬虫,但是我想把python的爬虫工具都过一遍,所以在开始阶段代码有些冗余、粗糙。 还需不断的改进,嗯,github是个很好的工具。数据采集这
2016-08-29 19:34:08
2920
原创 python:网络爬虫入门经验总结大大大大全
已经有一个多月没有看书了,最近想入手几本可口的书,可是鉴于本人有着强烈的选择恐惧症,所以就想到了豆瓣读书 但是豆瓣读书不能根据评分来筛选书籍,所以就想通过爬虫来把豆瓣读书中某一类别的书籍只要评分大于9.0的都筛选出来,并且为了能够准确找出,还实现了下载封面。 好,需求出来了。以下是初步的流程图: 通过查看豆瓣读书的的源代码可以很容易发现其链接规则: 对于每个链接的处理,有三种方法:
2016-05-28 22:19:51
2597
原创 hadoop集群搭建——轻松版
#首先编写 ssh 脚本,然后去每台机器上执行 1.sh 2.sh#注意:在每台机器上执行完相同脚本号的脚本之后才可以执行下一个脚本。#相同脚本好的脚本可以同时运行。
2015-10-26 01:22:55
403
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人