
数据挖掘与机器学习
点火三周
热爱编程,老码团队成员,《老码说编程之玩转Swift江湖》作者。elasitcsearch认证工程师,elasitcsearch中文社区成都负责人
展开
-
如何选择机器学习算法的简单线路图
这个线路图来自于scikit-learn,分享之:原创 2017-07-31 09:13:17 · 525 阅读 · 0 评论 -
Mahout推荐算法API详解
前言用Mahout来构建推荐系统,是一件既简单又困难的事情。简单是因为Mahout完整地封装了“协同过滤”算法,并实现了并行化,提供非常简单的API接口;困难是因为我们不了解算法细节,很难去根据业务的场景进行算法配置和调优。本文将深入算法API去解释Mahout推荐算法底层的一些事。目录Mahout推荐算法介绍算法评判标准:召回率与准确率Recommender.java的API转载 2017-08-23 15:02:43 · 574 阅读 · 0 评论 -
相似度算法
在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分 类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。 为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x转载 2017-08-23 16:31:50 · 5057 阅读 · 0 评论 -
Pandas和spark在DataFrame上的区别
PandasSpark工作方式单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理distributed数据。支持Hadoop,能处理大量数据转载 2017-09-30 08:43:57 · 7239 阅读 · 0 评论 -
十分钟了解pandas(总结)
这里是官网上的原文。每次都还链接到最新版本。这篇文章,对于不是英语母语的,10分钟,我觉得绝逼是看不完的。网上已经有很多翻译了。我只是把文章的结构组织以下,死记硬背一下它提到的知识点。对象创建创建Series创建基于时间的index创建DataFrame查看数据首尾数据查看索引列值查看统计数据转置索引排序按列值排序选取取列取行通过标签来选取 loc通过位置来选取 ilo原创 2017-10-17 09:55:03 · 1310 阅读 · 1 评论 -
tushare-pandas 添加自定义的MA移动平均线
使用pandas的rolling.mean函数自定义移动平均线原创 2017-10-17 15:02:55 · 8231 阅读 · 0 评论 -
用IT技术玩金融系列文章
本文转载至:http://blog.fens.me/series-it-finance/用IT技术玩金融系列文章,将介绍如何使用IT技术,处理金融大数据。在互联网混迹多年,已经熟练掌握一些IT技术。单纯地在互联网做开发,总觉得使劲的方式不对。要想靠技术养活自己,就要把技术变现。通过“跨界”可以寻找新的机会,创造技术的壁垒。金融是离钱最近的市场,也是变现的好渠道!今天就开始踏转载 2017-10-17 15:14:34 · 997 阅读 · 0 评论 -
在app上签到,打开,做任务的爬虫
研究这个,主要是很多app上提供的类似会员积分的东西就可以抵换实物,虽然不多,但是我有云啊,几个爬虫机器人刷刷就每天扫一遍,反正资源不用白不用。虽然大部分的app应用都有pc版,可以直接才浏览器中获取对应的api,但毕竟很多活动是app里面才有的。其实,app版和pc版也没有本质的区别,除非app是用的类似websocket的接口,否则从底层上来说,所有的动作对应的都是HTTP的动作,app版和p...原创 2018-07-30 09:12:48 · 5413 阅读 · 4 评论 -
以python自定义模块的方式共享API(数据,短信通知、邮件通知,代理等)
文章目录自定义模块的好处哪些函数需要放到自定义模块当中生成自定模块通过ansible,将模块发布到云服务器上经常写脚本的同学应该会经常碰到一些函数得反复的重写,比如日志,告警等。我在云上写了不少机器人脚本,每个都会涉及到一些公共的操作,比如,连接数据库(mysql,elasticsearch),寻找动态代理,发送短信,邮件通知等;要在这些脚本之间共享这些操作,需要将这些公共函数放到一个模块当中,...原创 2019-06-25 11:51:25 · 1388 阅读 · 0 评论