
大数据
cjf_wei
这个作者很懒,什么都没留下…
展开
-
Spark安装与入门使用
Spark是一个通用的大规模数据快速处理引擎,一个大数据分布式处理框架。Spark之所以能被迅速的应用到各种大数据处理场景下,与其为Batching processing,Streaming Processing,Ad-hoc Query等三大大数据处理问题提供了近乎完美的解决方案息息相关。原创 2017-10-15 10:09:30 · 521 阅读 · 0 评论 -
Hive使用入门
Hive提供了一个被称为Hive查询语言(简称HiveQL或者HQL)的SQL语言,用来查询和存储在Hadoop集群中的数据。Hive不是一个完整的数据库,不支持记录级别的更新、插入或者删除操作,Hive将查询语句转换成MapReduce任务。Hive不支持OLTP(联机事务处理)所需的关键功能,更接近一个OLAP(联机分析技术)工具;适合用于数据仓库应用程序。原创 2017-11-12 11:22:05 · 2724 阅读 · 0 评论 -
使用Hadoop的JAVA API远程访问HDFS
之前分别介绍了使用Hadoop的C API操作HDFS和使用Hadoop的Java API操作HDFS,在介绍Java访问方式时(C API不存在这样的问题),程序是部署在Hadoop安装环境的,这具有一定的局限性,因为客户端不可能总是运行在Hadoop安装节点上。本文介绍以Java方式远程访问/操作HDFS。在Hadoop安装环境中和远程访问的主要区别在于Hadoop环境配置的获取和程序的执...原创 2018-02-10 10:40:58 · 13898 阅读 · 1 评论 -
ZeroMQ的订阅发布(publish-subscribe)模式
ZeroMQ的订阅发布模式是一种单向的数据发布,当客户端向服务端订阅消息之后,服务端便会将产生的消息源源不断的推送给订阅者,本文的示例代码来源于文献[1]示例代码的修改。发布-订阅图示 发布者使用PUB套接字将消息发送到队列中,订阅者使用SUB套接字从队列中源源不断的接收消息。新的订阅者可以随时加入,但之前的消息是无法接收到的;已有的订阅者可以随时退出;订阅者还可以添加“过滤器”用来有选...原创 2018-04-22 10:15:26 · 5816 阅读 · 0 评论 -
HBase Java API(1.2.X)使用简介
之前读《HBase权威指南》在实践时,发现API已经发生了一些变化,查阅官方文档,确任HBase的API在1.0版本后已经做了修改。本文介绍在新API下,使用Java访问HBase的方法。 HBase Client通过查询hbase:meta表来确定你所感兴趣的数据行所在的RegionServers。在定位到这些数据所在的region后,client会直接和这些region所在的RegionSe...原创 2018-08-12 11:51:05 · 1287 阅读 · 0 评论 -
Hive之distinct多字段中出现null问题
在使用Hive以多个字段作为唯一性依据进行统计时,如果某个字段出现大量null值,会发生统计结果不准确问题,解决办法可以使用coalesce函数对空值进行替换。假设原来是以及A,B两个字段去重后统计结果:select count(distinct A,B) from tableName where xxx;在实践中发现A,B都可能为空值,而且B值出现空值的概率非常大,在这种情况下,发现统计...原创 2018-12-02 11:42:50 · 5716 阅读 · 0 评论