
大数据
文章平均质量分 58
大数据相关知识总结
EnterPine
这个作者很懒,什么都没留下…
展开
-
Apache Kylin使用MapReduce构建cube的过程
kylin在hive中会使用一个叫做kylindb的库Step #1: Create Intermediate Flat Hive Table做表关联,做一张关联后的宽表,具体步骤如下:1.1 根据cube的维度、度量创建中间宽表 kylin_intermediate_cubeA。DROP TABLE IF EXISTS kylin_intermediate_cubeA;CREATE E...原创 2021-01-07 14:50:33 · 499 阅读 · 0 评论 -
Spark中RDD复杂算子 aggregate()、combineByKeyWithClassTag()与aggregateByKey()
1、aggregate()方法声明:def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U = withScope {}方法声明中的重点:1、aggregate返回类型为传入的类型参数U2、第一个参数列表zeroValue为U类型的值,是聚合的初始值。3、两个函数类型的参数,官方注释如下: * @param seqOp an operator used to accu原创 2020-05-18 16:50:16 · 489 阅读 · 0 评论 -
Impala中添加udf总结
在hive中添加udf较为简单,没遇到什么麻烦,但是在impala中添加udf有时候会报错,找不到类,class not found等。一、class not found解决办法:将所缺类的jar包放到impala的lib目录下,如果是cloudera管理的,通常为:/opt/cloudera/parcels/CDH/lib/impala/lib/然后还需要重启impala新放入的jar...原创 2019-06-13 15:58:56 · 3033 阅读 · 0 评论 -
sqoop更新导入总结,从hive到mysql
首先语句上很简单,sqoop export \--connect jdbc:mysql://192.0.0.1:13308/test?characterEncoding=UTF-8 \--username cxk \--password jinitaimei \--table test_table \--columns a,b,c,d,e \--hcatalog-databa...原创 2019-06-13 16:33:40 · 1110 阅读 · 0 评论 -
Hadoop中Writable类笔记
Writable接口:包名:org.apache.hadoop.io方法:write(DataOutput var1) 用于序列化对象方法:readFields(DataInput var1) 用于反序列化对象Comparable接口:包名:java.lang方法:compareTo(T o) 用于比较大小,排序可能会调用WritableComparable...原创 2019-08-26 11:11:22 · 575 阅读 · 0 评论 -
scala中使用HBASE的scan方法查询数据
def scanFunc(uuid: String, table: Table): ListBuffer[String] = { var result = new ListBuffer[String] val scan = new Scan() val filter = new SingleColumnValueExcludeFilter(Bytes.t...原创 2019-03-05 16:09:12 · 2794 阅读 · 0 评论 -
RDD算子实现分组、连接字符串 (sql实现 contact_ws group by)
需求:有一个tuple数组,每个元组四个元素,需求按照 _2 _4 分组,_1 _3拼以 _ 拼接后,组内的再以 | 连接。sql实现为:select _2+_4,contact_ws(_1+_3,'|') from t1 group by _2+_4,改用RDD算子实现为:var arrFriend = ArrayBuffer[(String, String, Int, String)]...原创 2019-03-05 15:57:12 · 3197 阅读 · 0 评论 -
Spark2.x Java API 移除 DataFrame
Spark2.X 的 Java API 移除了DataFrame类,换为使用DataSet代替。对应的包为:import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;原创 2019-02-18 11:15:11 · 873 阅读 · 1 评论 -
Spark的DataFrame、RDD写入到HBase的方法(Scala)
一、使用DataFrame.saveAsHadoopDataset(conn)方法。特点:适合做批量的写入。优点为批量写入方便快捷。缺点对于数据量大的DF写入速度太慢。val conn = new JobConf(HBaseConfigurationcreate())//设置HBase连接conn.set(,)conn.set(,)//设置Host和Portconn.set(TableO...原创 2019-01-10 14:18:06 · 3155 阅读 · 0 评论 -
spark中 Dynamic Allocation 以及 num-executors 的问题
之前使用spark2.3.1的sparkstreaming时,发现 spark-submite 设置 num-executors10 时,没有起作用,spark作业的executors一度多大几百个,后来把dynamicAllocation.enabled false ,spark任务的executors才能限制在10。过一段时间,使用spark 1.6的saprk-sql时发现有...原创 2018-09-12 16:55:41 · 3445 阅读 · 0 评论 -
使用api查询Kylin数据
1、安装pip必要包 pip install kylinpy pip install sqlalchemy 2、 查询代码:import sqlalchemy as sadef kylin_query(conn_str,query_sql): #查看表(我没跑通) kylin_engine = sa.create_engine(conn_str) ky...原创 2018-08-20 18:38:26 · 1565 阅读 · 0 评论