- 博客(137)
- 收藏
- 关注
原创 Spark SQL运行 过程 抄的别人的,记录 学习
抄的别人的,觉得写的特别好 val FILESOURCE_TABLE_RELATION_CACHE_SIZE = buildStaticConf("spark.sql.filesourceTableRelationCacheSize")org.apache.spark.sql.catalyst.catalog.SessionCatalog#tableRelatio...
2018-05-13 23:07:43
532
原创 thriftserver log4j.properties 生效
/home/isuhadoop/spark2/sbin/start-thriftserver.sh --driver-class-path /home/isuhadoop/ark_data_bin/jar/fangzhou-nbdata-stream-1.0.jar:/home/isuhadoop/spark2/conf/hbase-site.xml:/home/isuhadoop/spark2/...
2018-04-09 11:46:02
302
原创 udaf 返回的 子属性
udaf 返回的 子属性spark.sql("select createCrowdHllc(uuid,tmp_id,'crowdid_appid').uuiduv from h5 ").show(10)package cn.analysys.udf.crowdimport cn.analysys.batch.userprocess.HbaseInit...
2018-03-20 13:22:46
225
原创 spark datasource
DataFrameWriterformatval cls = DataSource.lookupDataSource(source, df.sparkSession.sessionState.conf)private var source: String = df.sparkSession.sessionState.conf.defaultDataSourceNam...
2018-03-16 16:36:56
1663
原创 亲情的矛盾都是因为爱而化解 写给17 岁的你
>跟你说一个好玩的事情 。 刚刚我们一家三个也都在吵架 ,刚开始是我和我女儿吵,她说我不应在她高兴的时候说她的缺点,吵着吵着我和我老婆开始吵。最后发现我们为什么吵,都不重要了,而是觉得对方不讲道理,觉得对方态度不对,对方不理解自己而生气。>>你还记得过年那天,你和大毛哥讨论的那个问题吗?存在即合理,而这个理,每个人的身份不同,诉求不同,看法就不同。自然界的规律有他的客观性,但是这理在每个...
2018-03-12 09:31:06
291
原创 如何 map 端 Join。
Hive 中 修改表的 rawDataSize = 1 14: jdbc:hive2://ark3:9994> alter table app_uuid_info_test set tblproperties(rawDataSize=1)14: jdbc:hive2://ark3:9994> ;HBASE 表是不会根新的所有手工指点这个 阀值 set spark.s...
2018-03-04 19:31:36
986
原创 spark thrift server 修改
org.apache.spark.sql.hive.thriftserver.server.UdfLoadUtilspackage org.apache.spark.sql.hive.thriftserver.serverimport org.apache.spark.SparkFilesimport org.apache.spark.sql.SparkSessionimp...
2018-03-04 12:58:11
445
原创 hive hbase thriftserver run
正确方法 : 0\拷贝对应目录到 spark2 jars -rw-r--r--. 1 root root 1396867 3月 2 23:19 hbase-client-1.1.2.2.6.1.0-129.jar-rw-r--r--. 1 root root 575960 3月 2 23:20 hbase-common-1.1.2.2.6.1.0-129.ja...
2018-03-03 15:13:14
153
原创 论过年
你是不是说越长越大,过年就越没年味,与其这样,你还不如试着走走。 本人已有三年只给几个固定的亲戚拜年,每年除了抱怨只剩抱怨,左右不过是想显得自己与众不同,其实想想年味的增长真的看自己,说什么不想给谁谁谁拜年,只不过是“懒”,说和谁没感情,其实就是自己太空虚。 与其说不想去拜年,可以逼逼自己,你会发现,亲戚还是那个亲戚,...
2018-02-20 17:44:43
189
原创 scala package
#scala 打包 mvn clean scala:compile compile packagemvn clean scala:compile compile package -Dmaven.test.skip=true -Ptest
2018-01-25 09:48:35
145
原创 hive storage
hive> show create table test_parquet; OK CREATE TABLE `test_parquet`( `name` string, `age` int) ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'...
2018-01-24 14:34:46
512
原创 SET key=value commands using SQL. spark parquet
ConfigurationConfiguration of Parquet can be done using the setConf method on SparkSession or by running SET key=value commands using SQL.Property Name Default Meaningspark.sql.parquet.binaryA...
2018-01-24 12:18:57
167
原创 spark sql parquet 格式异常 修改Jar版本 parquet-hadoop-bundle-1.6.0
spark sql parquet 格式异常org.apache.hive.service.cli.HiveSQLException: java.lang.NoClassDefFoundError: parquet/hadoop/ParquetOutputFormat修改Jar-rw-r--r-- 1 root root 2796935 Apr 2 2017 pa...
2018-01-24 00:45:14
898
原创 SPARK SERVER
sbin/start-thriftserver.sh --driver-class-path $CLASSPATH:/usr/hdp/current/spark2-client/sparkudf.jar:/usr/hdp/current/hadoop-client/hadoop-common-2.7.3.2.6.0.3-8.jar --hiveconf hive.server2.thrif...
2018-01-23 22:15:22
536
原创 driver class
sbin/start-thriftserver.sh --driver-class-path $CLASSPATH:/usr/hdp/current/spark2-client/sparkudf.jar:/usr/hdp/current/hadoop-client/hadoop-common-2.7.3.2.6.0.3-8.jar --hiveconf hive.server2.thrift...
2018-01-21 22:11:34
1005
原创 kakfa offset
package cn.analysys.stream.stateimport java.nio.ByteBufferimport cn.analysys.meta.MetaMapInfoimport kafka.serializer.StringDecoderimport org.apache.spark.SparkConfimport org.apache.spark...
2018-01-01 22:08:05
158
原创 hllc 不同M 的 小基数的误差率
结论: testHllcError(10, tt) 31 开始出现误差 testHllcError(11, tt) 33 开始出现误差 testHllcError(13, tt) 42 开始出现误差 testHllcError(14, tt) 100 开始出现误差package hllctesti...
2017-12-22 14:20:20
527
原创 基数预估算法 错误率验证
package hllctestimport java.utilimport org.scalatest.{FlatSpec}import org.spark.sqludf.HLLCounterimport scala.collection.mutableimport scala.collection.mutable.ArrayBufferimport scal...
2017-11-25 16:32:11
267
原创 spark thrift server 调试
spark-hive-thriftserver 本地调试1 再加入 maven2 加入 spark/jars 下面的包起 hivethrift Server 类 , 会出现一个 找不到 xml .elelement 类的 问题。 1 要先加入 spark/jars 下面的包 2 再加入 maven ,就 OK , 估计是包冲突。 ...
2017-10-20 15:50:05
359
原创 spark SQL conf
org.apache.spark.sql.internal.SQLConforg.apache.spark.sql.hive.HiveUtils
2017-10-18 14:36:54
658
原创 java 死锁 ,内存问题 分析
jstack -l pid/opt/soft/jdk/bin/jstat -gcutil 124485 1000 1000/opt/soft/jdk/bin/jmap -dump:format=b,file=124485.dump 124485/opt/soft/jdk/bin/jmap -histo 124485
2017-10-17 10:50:38
212
原创 thriftServer proxy
sudo yum install haproxy 257 yun -ql haproxy 258 rpm -ql haproxy 259 cat /share/doc/haproxy-1.5.18/haproxy.cfg 260 cat /usr//share/doc/haproxy-1.5.18/haproxy.cfg 261 top 262 m...
2017-10-16 14:21:33
265
原创 newExecuteStatementOperation single session
var udfNotInited = true override def newExecuteStatementOperation( parentSession: HiveSession, statement: String, confOverlay: JMap[String, String], async: Boolean...
2017-10-16 09:52:57
160
原创 hive spark conf
CREATE TABLE org_userbehavior_all_yunzhi(user_id Int,event_time bigint,behivior_id SMALLINT,behivior_name String,behivior_pop String,record_date String)ROW FORMAT DELIMITED FIELDS ...
2017-09-26 17:44:03
495
原创 yarn spark
--master yarn --deploy-mode client --num-executors 4 --executor-memory 6g --executor-cores 3 --conf spark.default.parallelism=40 --conf spark.sql.shuffle.partitions=20
2017-09-19 14:08:36
120
原创 get day
def timeDayNow() = { var nowMis = timeNow() nowMis - ((nowMis + 28800l) % 86400) }
2017-09-19 08:41:47
91
原创 test code 09-18-2
object FunnelUtil { var gson: Gson = new GsonBuilder().create val maxFunnelLength = 10 var beginTimestamp = 0 var eventLength = 0 var eventMap : mutable.HashMap[Short,Byte] = null ...
2017-09-18 18:47:11
120
原创 交流 code 09-18
object DataProcess extends App { val spark = SparkSession .builder() .appName("UserBehiviorToHHDataPartition") .getOrCreate() val dataCollection = spark.sparkContext.textFile("....
2017-09-18 18:45:41
152
原创 thriftserver
export SPARK_CONF_DIR=/home/yunzhi.lyz/spark/spark220/confspark-default.conf spark.yarn.jars hdfs:/app/jars/*.jar # hdfs jar, 每次 submit ,如果 spark/jars 下面 jar 和 HDFS 上一样,用 HDFS上的,优先用 driver 上...
2017-09-14 19:47:17
254
原创 THREAD TEST
val THREAD_POOL_SIZE = 10 val THREAD_POOL = Executors.newScheduledThreadPool(THREAD_POOL_SIZE);THREAD_POOL.scheduleWithFixedDelay(new Runnable() { def run() { otsQueueProcess ...
2017-09-12 18:07:57
206
原创 thriftserver dynamicallocation
./sbin/start-thriftserver.sh --hiveconf hive.server2.thrift.port=9998 --hiveconf hive.server2.thrift.bind.host=ip --master yarn --deploy-mode client --conf spark.shuffle.service.enabled=true --conf s...
2017-09-08 14:41:28
120
原创 json
val gson: Gson = new GsonBuilder().create def jsonToMap(jsonstring: String): java.util.Map[String, String] = { val typeOfHashMap: Type = new TypeToken[java.util.Map[String, String]]() { ...
2017-09-07 10:21:46
90
原创 test code2
package org.test.udfimport com.google.gson.{Gson, GsonBuilder}import org.apache.spark.sql.Rowimport org.apache.spark.sql.api.java.UDF2import org.apache.spark.sql.expressions.{MutableAggregat...
2017-09-03 13:45:18
146
原创 test code
def taskcal(data:Array[(String,Long)],rt:Array[String],wd:Int):Array[Boolean]={ val result = Array.fill[Boolean](rt.length)(false) val sortData = data.sortBy(_._2) val indexArrayLength...
2017-08-24 17:52:17
556
原创 struct streaming SQL udf udaf
spark aggregator class HllcdistinctByte extends Aggregator[Row, HLLCounter, Array[Byte]] { // A zero value for this aggregation. Should satisfy the property that any b + zero = b ...
2017-08-22 11:50:26
211
原创 pipiline tf token
import org.apache.spark.ml.{Pipeline, PipelineModel}import org.apache.spark.ml.classification.LogisticRegressionimport org.apache.spark.ml.feature.{HashingTF, Tokenizer}import org.apache.spark.m...
2017-08-16 18:29:24
288
原创 struct streaming SQL udf udaf
object StructuredNetworkWordCount { def main(args: Array[String]) { if (args.length < 2) { System.err.println("Usage: StructuredNetworkWordCount ") System.exit(1) } ...
2017-08-15 18:06:55
172
原创 spark , jar
cat conf/spark-defaults.confspark.yarn.jars hdfs:/app/jars/*.jar
2017-08-15 16:48:11
132
原创 curreying function
benchmark2("hllc")(10000000)(hcclcodeanddecode2) benchmark("hllc")(10000000)(hcclcodeanddecode) def hcclcodeanddecode() :Unit = { val hllc = new HLLCounter(14) hllc.add("ads...
2017-08-09 15:27:08
122
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人