大数据技术
文章平均质量分 67
conggova
数据库、大数据、数据仓库、数据挖掘
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Linux查看显卡设备信息
查看VGA设备$ lspci | grep -i vga08:00.0 VGA compatible controller: ASPEED Technology, Inc. ASPEED Graphics Family (rev 30)(test_env) $ lspci -v -s 08:00.0 08:00.0 VGA compatible controller: ASPE...原创 2019-05-14 11:08:34 · 9517 阅读 · 0 评论 -
golang搭建thrift RPC服务实践
折腾了两天,终于调通了用golang搭建的thrift rpc服务,这个过程中遇到了很多问题,而且有些问题困扰了很久,欣喜之余,觉得一定要把这些过程记下来,对于自己来说是个备忘录,对于别人来说也是不错的参考。环境的搭建首先安装go,这个用yum安装,版本1.9.4。我这里用的是thrift 0.10.0 , 不是最新的 0.11.0 , 这个两个非常的不兼容,一定要注意,thrif...原创 2018-06-14 18:49:24 · 4048 阅读 · 0 评论 -
MapReduce的二次排序
二次排序问题是指在归约阶段对与某个键关联的值排序,有时也称为值键转换。 利用二次排序可以使归约阶段的值是有序的。MapReduce框架对映射器生成的键排序,传入归约器的数据都是按键排序的。利用MapReduce框架完成二次排序的方法构造一个组合中间键(K , V) ,其中K是分区键,V是用来排序的值 此中间键做为Map的输出的键,Map的输出会按照此组合键排序; 定制Partitioner,不原创 2017-09-14 23:59:25 · 361 阅读 · 0 评论 -
计算最大的关系网络的Spark实现
from pyspark import SparkConf , SparkContextconf = SparkConf().setMaster("local").setAppName("My app")sc = SparkContext(conf=conf)'''从关系对的数据中,找出所有最大的互不关联的连通子网络源数据格式为1,22,34,5节点的关原创 2017-08-24 14:09:15 · 653 阅读 · 0 评论 -
Hive UDF调试打印的方法
日志的打印导入用到的包import org.apache.commons.logging.Log;import org.apache.commons.logging.LogFactory; 通过工厂模式获取一个Log对象:static final Log LOG = LogFactory.getLog(NewGetKeyWithMaxValue.class.getName(原创 2017-08-26 19:16:20 · 7371 阅读 · 0 评论 -
hive优化:让一个MR做更多的事情
常常会有类似这样的需求:数据是这样的user_id int 用户ID pay_channel int 充值渠道IDpay_cents int 充值金额user_id+pay_channel为唯一键求每个用户充值金额最多的渠道。直观上有两种思路:1. 先求每个用户在所有渠道上的最大充值,然后回表joinselect t原创 2017-08-29 11:43:38 · 759 阅读 · 0 评论 -
MapReduce中数据处理详解
作业提交阶段对于每一种InputFormat都会提供两个方法: getSplits() 用来分片,一般来说对于普通的文件,是每个Block一个分片;不同的输入数据类型有完全不同的分片方法。 createRecordReader() 用来提供RecordReader对于输入的数据首先就是要分片,每一片对应着一个Mapper,Mapper数量总是等于分片数,原创 2017-08-31 01:42:08 · 1144 阅读 · 0 评论 -
hive GenericUDAF中的四种模式解析
每个模式下,输入数据的类型是不会变的,而调用的数据处理函数都有两种可能。partial1的输入只可能是原始数据;partial2的输入只可能是部分聚合结果;final的输入是部分聚合数据;complete的输入是原始数据;terminatePartial()与terminate()的输入是有两种可能性的,要按照模式来区分处理。原创 2017-09-02 10:14:33 · 1017 阅读 · 0 评论 -
看懂Hive的执行计划
官方文档 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Explain关于Hive执行计划简述一般执行计划有两个部分: stage dependencies 各个stage之间的依赖性 stage plan 各个stage的执行计划一个stage并不一定是一个MR,有可能是Fetch Operator,也有原创 2017-09-14 20:49:05 · 5705 阅读 · 2 评论 -
Golang的Kafka 框架支持consumer group
golang的kafka 框架有很多种, sarama是一种比较常用的,是用golang写的,但是不能支持consumer group。confluent是一种,是调用c语言的库librdkafka,可以支持consumer group。但是会麻烦一点,需要安装librdkafka。安装librdkafka先看官网上的一句话。This client for Go depends on li...原创 2019-07-26 11:56:09 · 3742 阅读 · 1 评论
分享