
数据挖掘&机器学习
文章平均质量分 78
瞭望天空
人生苦短以苦为乐不求最好只求更好
展开
-
大数据处理之道 (MATLAB 篇)
一:起因(1)最近一直在处理大数据,从MB ----> GB的变化,是一次质的飞跃,相应的工具也在变 从widows到linux,从单机单核 到 hadoop多节点的计算(2)问题来了,面对海量的数据,如何从中挖掘实用的信息或者发现潜在的现象,可视化工具可能是必不可少的 ;(3)可视化工具可以说百度一大篇,可是作为研究者的我们,程序猿的我们可能更希望能够抽象出一种数学模型,对现实的现象原创 2014-12-13 22:46:25 · 5934 阅读 · 0 评论 -
Python的库sklearn安装 & bazel安装 & cmake
Python的库sklearn安装 也可以用pip安装(如:pip installscikit-learn),但安装的位置不同,安装是包名不同(apt-get安装的python包一般前缀是python),python用的时候优先选择apt-get安装的包。如果用pip freeze 安装的包的版本和在python环境(进入python导包,查看版本)看到的版本不同,可能就是用apt-get和pip都安装了,然后选择性的保留就行了(建议保留pip的)原创 2017-03-29 17:28:18 · 5774 阅读 · 0 评论 -
GBDT 之 Boosting方法
Boosting方法概述Boosting方法是一种用来提高弱分类算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将他们组合成一个预测函数。他是一种框架算法,主要是通过对样本集的操作获得样本子集,然后用弱分类算法在样本子集上训练生成一系列的基分类器。他可以用来提高其他弱分类算法的识别率,也就是将其他的弱分类算法作为基分类算法放于Boosting框架中,通过Boosting原创 2017-03-23 10:33:40 · 1565 阅读 · 0 评论 -
TF(tensorflow)安装之python
第一步:习惯性的google Git源码,readME发现源码安装太复杂;再百度安装tensorflow安装非常全面的安装方法(中文):https://www.tensorflow.org/versions/r0.11/get_started/os_setup#pip-installation 或 https://github.com/jikexueyuanwiki/tensorflow-zh原创 2017-03-23 12:22:54 · 2966 阅读 · 0 评论 -
hadoop streaming (shell执行 & combiner & 数据分割)
先上干货:hadoop.streaming 的一个完整的shell脚本;(shell执行脚本实例 & combiner初探 & 数据分割) 21 ### 2--- tasks 22 HADOOP=/usr/bin/hadoop 23 24 local_file="./wc.data" 25 #input="yapeng/WC/input/*.txt" 26 input="yapeng/WC/input2" 27 output="yapeng/原创 2017-05-23 16:25:03 · 5727 阅读 · 1 评论 -
深度学习在推荐领域的应用 Lookalike Facebook node2vec 深度学习 推荐领域
深度学习在推荐领域的应用Lookalike Facebook node2vec 深度学习 推荐领域转载 2017-06-01 16:03:47 · 4874 阅读 · 0 评论 -
Hadoop进阶(hadoop streaming c++实现 & MapReduce参数调优)
hadoop streaming c++实现 心得 与 MapReduce参数调用目录:1,机器学习 & MRHadoop进阶(hadoop streaming c++实现 & MapReduce参数调优)hadoop streaming (shell执行 & combiner & 数据分割)hadoop streaming python 处理 lzo 文件遇到的问题spark安装与调试推荐算法之Jaccard相似度与Consine相似度LibLinear使用总结深度学习在推荐领域的应用原创 2017-05-27 11:12:19 · 2338 阅读 · 1 评论 -
Tersorflow深度学习入门—— CIFAR-10 训练示例报错及解决方案
Tersorflow深度学习入门—— CIFAR-10 训练示例报错及解决方案, CNN图像分类与识别原创 2017-04-28 10:01:41 · 12321 阅读 · 7 评论 -
GBDT安装(xgboost LightGBM)
GBDT安装之xgboost LightGBM; sklearn python; Adaboost思想原创 2017-03-23 10:27:34 · 5037 阅读 · 0 评论 -
LibLinear使用总结(L1,L2正则)
一般情况下,L1即为1范数,为绝对值之和;L2即为2范数,就是通常意义上的模。L1会趋向于产生少量的特征,而其他的特征都是0,即实现所谓的稀疏,而L2会选择更多的特征,这些特征都会接近于0。对于solver的选择,作者的建议是:一般情况下推荐使用线性svm,其训练速度快且效果与lr接近;一般情况下推荐使用L2正则化项,L1精度相对低且训练速度也会慢一些,除非想得到一个稀疏的模型(个人注:当特征数量非常大,稀疏模型对于减少在线预测计算量比较有帮助)原创 2017-05-22 15:11:46 · 13100 阅读 · 1 评论 -
tensorflow 之 bazel安装 & 使用
写在文章前面:当一个人从一个领域跨到另一个领域的时候会面临很大的改变,理论不同了,方法变换了,遇到这样挑战的时候,很多人都需要长时间去适应和习惯;这种领域的转换其实有三种,一种是理论的改变,一种是方法论的改变,另一种,则是理论和方法论都发生了改变。1,方法论的变化,重要的应对在于做,多做,多总结,从熟悉到习惯,从习惯到精通;2,理论的变化,重要的应对在于悟,多想,多问自己为什么,尝试内心的突破,打破自己既有的思维桎梏。3,有时候觉得方法论更重要,那是因为自己对工具的使用还不熟练,当对工具使用熟练后,原创 2017-04-06 19:14:01 · 77124 阅读 · 4 评论 -
机器学习中的特征——特征选择的方法以及注意点
在机器学习=模型+策略+算法的框架下,特征选择就是模型选择的一部分,是分不开的。这样文章最后提到的特征选择和交叉验证就好理解了,是先进行分组还是先进行特征选择。转载 2017-07-05 19:30:44 · 1619 阅读 · 0 评论 -
数据挖掘 与 Web开发何去何从
(0)引子下面以现实生活中的一个实例引出本博客的探究点,也许类似的情况正发生在你的身边。小弟工作5年了,最近有点迷茫。上一份工作在一家比较大的门户网站做web开发和移动互联网数据挖掘(人手比较紧,同时做)。后来跳槽到BAT之一做数据挖掘。数据量倒是非常大,但是感觉没有多大意思——就是分析日志,弄报表而已。之前已经的高性能web开发经验完全用不上,感觉自己还是喜欢做开发,能和业务原创 2015-12-26 21:36:13 · 4725 阅读 · 0 评论 -
优化算法 无处不在
一:起因(0)优化算法(Optimization Algorithm),即求目标函数的最优值问题;如何评价你的当前解的值是最优的?这就需要构造评价函数;如何从当前的位置(解)更新到新的搜索空间?这就需要变换的形式的定义。(1)优化算法无处不在 —— 实际生活中的 物资调配,一定的生产资料如何得到最大的产出,一定的投资如何得到最佳的收益等等,都可以转化为最优化问题的求解;就连我们平常生活中的原创 2015-04-17 15:51:45 · 1517 阅读 · 1 评论 -
大数据处理之道(实验方法篇<一>)
(1)做大数据处理,清洗数据结束后,就是现象分析,再建立Model模型,在验证自己模型的有效性(2)大数据试验验证模型有效性的指标:Accuracy(正确率);Precision(查准率或准确率);Recall(查全率或召回率);F1-MeasureTrue Positives, True Negatives, False Positives, False Negatives 下面分别原创 2014-12-17 17:18:49 · 2319 阅读 · 7 评论 -
大数据处理之道 (MATLAB 篇(二))
一:起因(0)开始个人非常抵触MATLAB编程语言的,肯能是部分编程人员的通病 —— 学会c/c++或者java,就会鄙视其他的语言,懒得尝试其他语言。直到有一天……他发现,他或者她发现自己精通的这门语言实在是解决不了这个问题时,才做出改变。(1)最近一直在处理大数据,从MB ----> GB的变化,是一次质的飞跃,相应的工具也在变 从widows到linux,从单机单核 到 ha原创 2014-12-14 19:51:37 · 10947 阅读 · 0 评论 -
java基础 之 HashMap统计csv文件的单词
一:知识补充( 这个HashMap Map 和 c++的Map还是有很大的区别的,区别之大让人瞠目结舌,当然两者的作用是一致的,但是函数名称出入很大,就连iterator区别也很大的 )(1)HashMap 和 HashTable的区别(c++中只有map木有hashmap的)HashMap不是线程安全的 hastmap是一个接口 是map接口的子接口,是将键映射到值的对象,其中键和值原创 2014-10-20 16:18:21 · 2565 阅读 · 2 评论 -
大数据之道 HMM系列
一:HMM解码问题(1)给定一个观察序列O=O1O2...OT,和模型μ=(A,B,π),如何快速有效地选择在一定意义下“最优”的状态序列Q=q1q2...qT,使该状态最好地解释观察序列。(2)最可能的隐藏状态序列(Finding most probable sequence of hidden states);对于一个特殊的隐马尔科夫模型(HMM)及一个相应的观察序列,我们常常希望能找原创 2015-01-16 11:36:37 · 1484 阅读 · 0 评论 -
大数据之道 BitMap (按位存取)
一:起因(0)大数据的预处理那一篇博客,仅仅讲解了如何处理数据,以及清洗数据的原则;并没有讲解大数据处理过程中,数据在内存中的存储问题,这正是本文要关注的重点。(1)所谓大数据,就是数据量非常的大,到了TB 甚至 PB数量级,处理大数据可以分为以下方法:(2)运用现在非常火的Hadoop 和 spark 之外(其实是一个非常好的成熟的分布式框架 ---- 用的也是分治的思想);(3原创 2015-01-26 11:35:18 · 5551 阅读 · 6 评论 -
大数据处理之道 (MATLAB 篇<三>)
一:起因(1)最近一直在处理大数据,从MB ----> GB的变化,是一次质的飞跃,相应的工具也在变 从widows到linux,从单机单核 到 hadoop多节点的计算(2)问题来了,面对海量的数据,如何从中挖掘实用的信息或者发现潜在的现象,可视化工具可能是必不可少的 ;(3)可视化工具可以说百度一大篇,可是作为研究者的我们,程序猿的我们可能更希望能够抽象出一种数学模型,原创 2015-01-21 11:54:37 · 4673 阅读 · 4 评论 -
大数据处理之道(实验方法<二>)
一:交叉验证(crossvalidation)(附实验的三种方法)方法简介 (1) 定义:交叉验证(Cross-validation)主要用于建模应用中,例如PCR(Principal Component Regression) 、PLS(Partial least squares regression)回归建模中。在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的原创 2014-12-18 11:38:26 · 2417 阅读 · 4 评论 -
大数据处理之道(预处理方法)
一:为什么要预处理数据?(1)现实世界的数据是肮脏的(不完整,含噪声,不一致)(2)没有高质量的数据,就没有高质量的挖掘结果(高质量的决策必须依赖于高质量的数据;数据仓库需要对高质量的数据进行一致地集成)(3)原始数据中存在的问题:不一致 —— 数据内含出现不一致情况重复不完整 —— 感兴趣的属性没有含噪声 —— 数据中存在着错误、或异常(偏离期望值)的数据高维度原创 2014-12-23 10:50:50 · 14886 阅读 · 2 评论 -
大数据之道 HMM系列<二>(成长)
一:HMM解码问题(1)编程深处无非就是算法和结构,以及各种架构和版本的管理(如Git管理),因此作为程序员算法这一关是绕不过去的;(2)关于算法,个人比较崇尚的一本书是《算法导论》和ACM实战系类的算法培训;(3)对于自然语言处理领域或者部分机械学习领域的算法,HMM模型是非常经典的算法之一,非常适合初学者学习和研究;(4)HMM模型μ=(A,B,π),的状态是不可见原创 2015-01-19 10:45:33 · 1449 阅读 · 4 评论 -
大数据处理之道 (Gibbs Sampling)
一:简介以及学习的途径(1)吉布斯采样(Gibbs Sampling)及相关算法 (学习向Gibbs sampling, EM, MCMC算法 等的好地方) 1) 推荐大家读Bishop的Pattern Recognition and Machine Learning,讲的很清楚,偏理论一些; 2) 读artificial Intelligence,2、3版原创 2014-12-27 20:59:07 · 4347 阅读 · 2 评论 -
data cleaning(数据清洗) 课程笔记
使用机器学习(ML), data mining 对数据进行分析之前, 需要使用大量的数据预处理工作。 因为没有干净的数据, 很难对数据进行更进一步的分析。 在这本课程中, 主要cover 如下几个内容:(1)如何获取原始数据(raw data)(2) 如何将这些具有噪声的raw data 变得更加的tidy, 以便为我们进一步的分析做准备。 有哪些data cleaning转载 2014-09-26 21:23:53 · 3568 阅读 · 0 评论 -
c++ fstream + string 处理大数据(与c 的fread)
一:起因(1)之前处理文本数据时,各种清洗数据用的都是java的File,FileReader/FileWriter,BufferedReader/BufferedWriter等类,详见java读写文件(2)应用java的原因是java里面的map非常灵活,eclipse编译器更是给力,而且ctrl 可以追踪函数 等,详见java map的排序(3)应用java的另一个原因是java里原创 2014-11-30 11:27:42 · 9958 阅读 · 10 评论 -
大数据处理之道(十分钟学会Python)
一:python 简介(1)Python的由来Python(英语发音:/ˈpaɪθən/), 是一种面向对象、解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年。Python语法简洁而清晰,具有丰富和强大的类库。它常被昵称为胶水语言,它能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起。常见的一种应用情原创 2014-12-19 11:15:04 · 12691 阅读 · 9 评论 -
pearson 相关系数 & 机器学习模型中不平衡样本问题
本文讨论一下几点: 1, pearson 相关系数(Pearson Correlation Coeffient) --- 皮尔逊相关系数 ; 2,信息增益(InfoGain) 、卡方检验 与特征选择;3,机器学习模型中不平衡样本问题原创 2017-07-05 17:47:51 · 6926 阅读 · 2 评论