
Hadoop / 数据挖掘
小尼人00
人生一直在不断的探索中,才知道一些东西的真正含义,为了在探索的路途中少走弯路,早日达到心中的愿景,我认为没有什么比开阔眼界更重要的了。
展开
-
一、Hadoop是什么?
一、Hadoop是什么? 答:是google的核心算法MapReduce的一个开源实现。用于海量数据的并行处理。 hadoop的核心主要包含:HDFS和MapReduce HDFS是分布式文件系统,用于分布式存储海量数据。 MapReduce是分布式数据处理模型,本质是并行处理。 二、多少数据算海量数据? 答:个人认为,TB(1024GB)级别往上就可以原创 2013-05-14 16:50:25 · 1103 阅读 · 0 评论 -
Ubuntu下安装numpy and matplotlib
安装numpy相对简单,以下命令可以完成 apt-get install python-numpyapt-get install python-scipy 安装matplotlib相对复杂一些需要先安装其依赖的包libpng和freetype安装libpng: sudo apt-get install libpng-dev转载 2014-11-02 15:57:32 · 875 阅读 · 0 评论 -
机器学习july
http://julyedu.com/machinelearning.php#bengin1原创 2015-02-01 23:16:47 · 1814 阅读 · 0 评论 -
结构风险最小和VC维理论的解释
基于libsvm的中文文本分类原型 ,虽然做了原型,但是概念还不是很清晰。“支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上”结构化风险结构化风险 = 经验风险 + 置信风险经验风险 = 分类器在给定样本上的误差置信风险 = 分类器在未知文本上分类的结果的误差置信风险因素:样本数量,给定的样本数量越大,学习结果越有可转载 2015-02-06 10:22:18 · 1907 阅读 · 0 评论 -
Hive内置数据类型
Hive的内置数据类型可以分为两大类:(1)、基础数据类型;(2)、复杂数据类型。其中,基础数据类型包括:TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DECIMAL,CHAR,VARCHAR,DATE。下面的表格列出这些基础类型所占的字节以及从什么版本开始支持这些类型。数据类型转载 2015-12-18 13:30:40 · 567 阅读 · 0 评论 -
sqoop使用经验总结及问题汇总
问题导读1.导入数据到HDFS,需要注意什么?2.在测试sqoop语句的时候,如何限制记录数量?3.sqoop导入时什么情况下会多导入一条数据?一、sqoop 导入数据到HDFS注意事项分割符的方向问题首先sqoop的参数要小心, 从数据库导出数据,写到HDFS的文件中的时候,字段分割符号和行分割符号必须要用--field转载 2016-01-15 15:25:29 · 20497 阅读 · 1 评论 -
SparkContext的parallelize的参数
在一个Spark程序的开始部分,有好多是用sparkContext的parallelize制作RDD的,是ParallelCollectionRDD,创建一个并行集合。例如sc.parallelize(0 until numMappers, numMappers)创建并行集合的一个重要参数,是slices的数目(例子中是numMappers),它指定了将数据集切分为几份。在集群模式中,转载 2016-02-02 13:32:01 · 7052 阅读 · 0 评论 -
巴真的点评
你知道那种代码在跑,你却不知道下面在干什么的感受! 这句话触动太大了哈。早年汇编程序员过渡C时,发现C语言对于机器抽象太过于猛烈。想当年那些寄存器运算、内存寻址、访问磁盘io多多少少还有些冯诺依曼结构的影子,再看如今C语言遍地的数组、指针操作已经完全把计算机体系映射到完整的数学逻辑操作。汇编程序员一边大骂C太过于傻瓜化,让大量不懂计算机体系,不懂CPU结构的”愣头青”也能参与到程序开发,而转载 2013-07-31 14:01:01 · 1242 阅读 · 0 评论 -
[Bdata] Twitter Storm:开源实时流计算
Twitter将Storm正式开源了,这是一个分布式的、容错的实时计算系统,它被托管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType开发的实时处理系统,BackType现在已在Twitter麾下。GitHub上的最新版本是Storm 0.5.2,基本是用Clojure写的。Storm为分布式实时计算提供了一组通用原语,可被用于转载 2014-01-03 00:03:09 · 1154 阅读 · 0 评论 -
SQL是OO的吗?
最近写多了HiveSQL,今天偶尔改了一个很老的java程序,突然想到SQL到底是不是一种OO的语言?按照历史来说,SQL应该和OO几乎是出生于同一个年代,我无法得知发明SQL的人是否借鉴了OO,或者想出OO的人是否吸纳了SQL的精髓,但是某一些容易被人忽略的东西还是可以印证这两个东西的相似性!OO的三个基本特点:封装性/继承性/多态性对于SQL来说几乎全部拥有,特别是对于Hive转载 2013-07-31 14:00:11 · 956 阅读 · 0 评论 -
Hadoop Streaming cacheFile 和cacheArchive选项
Hadoop Streaming中的大文件和档案任务使用-cacheFile和-cacheArchive选项在集群中分发文件和档案,选项的参数是用户已上传至HDFS的文件或档案的URI。这些文件和档案在不同的作业间缓存。用户可以通过fs.default.name.config配置参数的值得到文件所在的host和fs_port。这个是使用-cacheFile选项的例子:-cach转载 2013-07-22 14:17:43 · 1624 阅读 · 0 评论 -
Hadoop/Hive简介
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hadoop是一个存储计算框架,主要由两部分组成: 1,存储转载 2013-07-22 14:51:59 · 852 阅读 · 0 评论 -
Hadoop Streaming 实战: 多路输出
streaming把reduce的输出作为一个任务的最终输出,输出文件形如: part-00000、part-00001…… 文件个数为reduce任务个数 但是,有的时候,我们有多路输出的需求,eg:一部分数据作为下一个mapreduce任务的输入,另一部分数据直接供下游任务抓取,此时,我们就需要使用reduce的多路输出。在hadoop-v2-u转载 2013-07-22 13:33:34 · 1049 阅读 · 0 评论 -
hive连接mysql配置
1、进入hive/conf目录下,修改hive-default.xml: @baidu, I 修改的是 hive-site.xml hive.metastore.local true javax.jdo.option.ConnectionURL jdbc:mysql://192.168.0.121:3307/hive?createDatabaseI转载 2013-07-30 16:09:31 · 3289 阅读 · 0 评论 -
Hive笔记--安装
http://blog.youkuaiyun.com/superye1983Hive的安装其实很简单下载tar包解压,然后配置一下HIVE_HOME和系统PATH就可以了然后运行hiveLogging initialized using configuration in jar:file:/home/kira/src/hive/current/lib/hive-common-0.8转载 2013-07-30 16:05:05 · 1346 阅读 · 0 评论 -
hive数据类型(翻译自Hive Wiki)
翻译自 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types列类型Hive支持的数据类型如下:原生类型:TINYINTSMALLINTINTBIGINTBOOLEANFLOATDOUBLESTRINGBINARY (Hive 0.8.0以上才可用)TIMESTAMP (Hive 0转载 2013-07-29 10:03:46 · 1142 阅读 · 0 评论 -
hive 创建/删除/截断 表(翻译自Hive wiki)
这里罗列常用操作,更多参考 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-Create%2FDrop%2FTruncateTable简单的创建表create table table_name ( id int, dt转载 2013-07-29 09:46:29 · 823 阅读 · 0 评论 -
一骑绝尘引发的思考–关于hive程序员是否需要学习mapreduce
标题是一篇文章,为新华社记者杨明所写,文中讨论了中国在亚运会团购金牌的事,认为泱泱中华不应该再以金牌论英雄,而需将竞技体育转移到全民运动中来,让全社会都来热爱体育,热爱运动。引用此文,不是在此讨论体育,而是因为前些天巴真同学的拍砖引起了我的一些想法!为什么会有这么多想法?因为本人活到现在还没有人在我的文章后留言如此之长,为表敬重,单独再开一贴。其实我们所要争论的核心议题很明确,就是转载 2013-07-31 13:37:02 · 1167 阅读 · 0 评论 -
Spark: sortBy和sortByKey函数详解
http://www.iteblog.com/archives/1240转载 2016-04-27 11:22:25 · 1284 阅读 · 0 评论