Sunnnnnnnnyin-优快云博客

原创根据股票涨跌用KMeans进行分类

今早刚得到一份2890支股票2013年9月30日至今的交易数据，数据量还行，共有170m左右。趁着热乎劲，想做一些分析。分析思路很简单，就是通过股票的涨跌情况，进行聚类分析。看看哪些股票种类是相似的,对于一些异常的股票，可以进一步挖掘分析。这里用到的算法是KMeans。KMeans的原理很简单，这里就不详述了，不清楚的同学请使劲戳这里KMeans主要的参数主要有这几个：k（中心点的个数），iter（

2016-09-28 15:25:52 4385 1

原创 FTP数据入库Hive

哦哦哦，我本是对数据挖掘有着无限的兴趣，现在却从事大数据处理的工作，但是上班是上班，平时依然奋发向上，自学机器学习的东西。但是作为一名非常合格的员工（哈哈，很有不要脸的气质，这很Sunnyin），不能总是在自己博文中记录其他的学识吧，万一哪天被老大看到，岂不得让我雨露均沾，受得万般恩宠。。。。好了，今天的废话又是说的如此到位，下面进入正题。也就是我现在的这个loooooooooooow项目的数据处理

2016-09-10 20:13:22 3405

原创通过多项式来拟合股票收盘价的趋势图

最近在研究Numpy，其功能非常强大，通过线性代数运算避开了很多的循环，从而使计算效率得到了明显的提高。接下来，我就简单讲解一下，如果通过numpy构造多项式来拟合股票收盘价的趋势图。（如果有哪位朋友对这篇博文有兴趣，希望能够留下您的宝贵建议，我们一起交流学习。）手上有一份数据，是创业环保（股票代码：600874）在8月份的交易行情数据：其中第4个字段为每天的收盘价。通过numpy中

2016-09-10 19:18:39 7483 1

原创 python爬虫——构建代理ip池

今年6月份开始的自己的数据分析项目，到现在已经快3个月的时间了。因为中间停歇了两个月的时间，导致现在依然滞留在数据采集那一部分，还好这两天又有了时间来折腾折腾。我看到有网友说利用python Scrapy框架可以很方便，并且可以伪造ip，以来防止网站的反爬虫，但是我想把python的爬虫工具都过一遍，所以在开始阶段代码有些冗余、粗糙。还需不断的改进，嗯，github是个很好的工具。数据采集这

2016-08-29 19:34:08 3007

原创 python：网络爬虫入门经验总结大大大大全

已经有一个多月没有看书了，最近想入手几本可口的书，可是鉴于本人有着强烈的选择恐惧症，所以就想到了豆瓣读书但是豆瓣读书不能根据评分来筛选书籍，所以就想通过爬虫来把豆瓣读书中某一类别的书籍只要评分大于9.0的都筛选出来，并且为了能够准确找出，还实现了下载封面。好，需求出来了。以下是初步的流程图：通过查看豆瓣读书的的源代码可以很容易发现其链接规则：对于每个链接的处理，有三种方法：

2016-05-28 22:19:51 2653

原创 hadoop集群搭建——轻松版

#首先编写 ssh 脚本，然后去每台机器上执行 1.sh 2.sh #注意：在每台机器上执行完相同脚本号的脚本之后才可以执行下一个脚本。 #相同脚本好的脚本可以同时运行。

2015-10-26 01:22:55 440

Sunnyin's blog

原创根据股票涨跌用KMeans进行分类

原创 FTP数据入库Hive

原创通过多项式来拟合股票收盘价的趋势图

原创 python爬虫——构建代理ip池

原创 python：网络爬虫入门经验总结大大大大全

原创 hadoop集群搭建——轻松版

hadoop_API集合

空空如也

原创 根据股票涨跌用KMeans进行分类

原创 FTP数据入库Hive

原创 通过多项式来拟合股票收盘价的趋势图

原创 python爬虫——构建代理ip池

原创 python：网络爬虫入门经验总结大大大大全

原创 hadoop集群搭建——轻松版

hadoop_API集合

空空如也

原创根据股票涨跌用KMeans进行分类

原创通过多项式来拟合股票收盘价的趋势图