
数据分析
文章平均质量分 84
humanity11
这个作者很懒,什么都没留下…
展开
-
大数据实时依旧是一项很难的技术
大数据实时是一项很难的技术原创 2022-03-10 23:26:22 · 5521 阅读 · 6 评论 -
Random Forests预测森林植被类型
在Colorado北部,有一片森林,森林里中有多种类型的植被,有人已经将其大概总结出来了7种:1 - Spruce/Fir2 - Lodgepole Pine3 - Ponderosa Pine4 - Cottonwood/Willow5 - Aspen6 - Douglas-fir7 - Krummholz如果将它们的特征划,可以划分成12种,在这12中类型中,其原创 2017-10-07 15:39:57 · 1828 阅读 · 0 评论 -
科比退役原因-数据分析
科比布莱恩特1996年进入NBA,至今在NBA已经是第20个年头了。从一个毛头小子,凭着坚韧的意志和努力的训练逐渐成为乔丹的接班人。职业生涯从"OK"组合的湖人王朝开始,到同奥尼尔关系破裂一个人独自带领湖人奋斗,直到再次拿下两连冠,科比已经是联盟当之无愧的第一人。直到现在37岁的科比“廉颇老矣”,宣布2015-2016赛季结束后退,这将是后乔丹的一个时代的结束,致敬科比!外界对科比的退役有原创 2017-12-18 19:30:51 · 2002 阅读 · 0 评论 -
scala语法总结
object TestScala { implicit def nobody(nothing:Int)=nothing.toString// implicit def int2String(name:Int)=name.toString def main(args: Array[String]): Unit = { //various//变量 // testFo...原创 2018-07-22 12:08:29 · 204 阅读 · 0 评论 -
kafka的分布式爬虫系统
前言 几乎停顿了1年之久,很久没写博客了,一方面是在院里做项目太忙,另一方面是自己也在摸索大数据领域的技术,终于自己搭起来了个基于kafka的分布式爬虫程序,可以抓网站的图像了,不多说,先看抓的图像数据。目前存储在elastic中的图像记录条数为1.7亿条,用了13个节点,具体的图像数据存储在hbase中。抓取的数据量超过2T,并20台机器同时抓取保持每天800w条数据增长,每天这么...原创 2019-01-24 21:37:28 · 2434 阅读 · 0 评论 -
Hive 表的连接
Hive表常用连接对于直接在mapReduce中用join相比,hive的好处是简化了繁琐的处理工作,hive表的连接操作就是如此,本文主要讲解hive的4中主要连接:内连接、外连接、半连接、map连接。我们用如下的sales,things表的数据来举例说明各种连接的作用,方便大家理解。 (图1 sales表) ...原创 2019-01-26 12:17:24 · 1095 阅读 · 0 评论