
spark 学习
文章平均质量分 64
lingzhi007
这个作者很懒,什么都没留下…
展开
-
scala spark
RDD 值查看 初学习spark ,瞄对象的值可以帮助我们理解 var file = sc.textFile("data.txt") file.foreach(println) 就可以了原创 2014-09-20 08:23:03 · 119 阅读 · 0 评论 -
thriftserver dynamicallocation
./sbin/start-thriftserver.sh --hiveconf hive.server2.thrift.port=9998 --hiveconf hive.server2.thrift.bind.host=ip --master yarn --deploy-mode client --conf spark.shuffle.service.enabled=true --conf s...原创 2017-09-08 14:41:28 · 121 阅读 · 0 评论 -
thriftserver
export SPARK_CONF_DIR=/home/yunzhi.lyz/spark/spark220/confspark-default.conf spark.yarn.jars hdfs:/app/jars/*.jar # hdfs jar, 每次 submit ,如果 spark/jars 下面 jar 和 HDFS 上一样,用 HDFS上的,优先用 driver 上...原创 2017-09-14 19:47:17 · 262 阅读 · 0 评论 -
get day
def timeDayNow() = { var nowMis = timeNow() nowMis - ((nowMis + 28800l) % 86400) }原创 2017-09-19 08:41:47 · 92 阅读 · 0 评论 -
hive spark conf
CREATE TABLE org_userbehavior_all_yunzhi(user_id Int,event_time bigint,behivior_id SMALLINT,behivior_name String,behivior_pop String,record_date String)ROW FORMAT DELIMITED FIELDS ...原创 2017-09-26 17:44:03 · 500 阅读 · 0 评论 -
thriftServer proxy
sudo yum install haproxy 257 yun -ql haproxy 258 rpm -ql haproxy 259 cat /share/doc/haproxy-1.5.18/haproxy.cfg 260 cat /usr//share/doc/haproxy-1.5.18/haproxy.cfg 261 top 262 m...原创 2017-10-16 14:21:33 · 272 阅读 · 0 评论 -
java 死锁 ,内存问题 分析
jstack -l pid/opt/soft/jdk/bin/jstat -gcutil 124485 1000 1000/opt/soft/jdk/bin/jmap -dump:format=b,file=124485.dump 124485/opt/soft/jdk/bin/jmap -histo 124485原创 2017-10-17 10:50:38 · 215 阅读 · 0 评论 -
spark SQL conf
org.apache.spark.sql.internal.SQLConforg.apache.spark.sql.hive.HiveUtils原创 2017-10-18 14:36:54 · 662 阅读 · 0 评论 -
spark thrift server 调试
spark-hive-thriftserver 本地调试1 再加入 maven2 加入 spark/jars 下面的包起 hivethrift Server 类 , 会出现一个 找不到 xml .elelement 类的 问题。 1 要先加入 spark/jars 下面的包 2 再加入 maven ,就 OK , 估计是包冲突。 ...原创 2017-10-20 15:50:05 · 366 阅读 · 0 评论 -
driver class
sbin/start-thriftserver.sh --driver-class-path $CLASSPATH:/usr/hdp/current/spark2-client/sparkudf.jar:/usr/hdp/current/hadoop-client/hadoop-common-2.7.3.2.6.0.3-8.jar --hiveconf hive.server2.thrift...原创 2018-01-21 22:11:34 · 1011 阅读 · 0 评论 -
SPARK SERVER
sbin/start-thriftserver.sh --driver-class-path $CLASSPATH:/usr/hdp/current/spark2-client/sparkudf.jar:/usr/hdp/current/hadoop-client/hadoop-common-2.7.3.2.6.0.3-8.jar --hiveconf hive.server2.thrif...原创 2018-01-23 22:15:22 · 538 阅读 · 0 评论 -
scala package
#scala 打包 mvn clean scala:compile compile packagemvn clean scala:compile compile package -Dmaven.test.skip=true -Ptest原创 2018-01-25 09:48:35 · 147 阅读 · 0 评论 -
hive hbase thriftserver run
正确方法 : 0\拷贝对应目录到 spark2 jars -rw-r--r--. 1 root root 1396867 3月 2 23:19 hbase-client-1.1.2.2.6.1.0-129.jar-rw-r--r--. 1 root root 575960 3月 2 23:20 hbase-common-1.1.2.2.6.1.0-129.ja...原创 2018-03-03 15:13:14 · 156 阅读 · 0 评论 -
spark thrift server 修改
org.apache.spark.sql.hive.thriftserver.server.UdfLoadUtilspackage org.apache.spark.sql.hive.thriftserver.serverimport org.apache.spark.SparkFilesimport org.apache.spark.sql.SparkSessionimp...原创 2018-03-04 12:58:11 · 454 阅读 · 0 评论 -
如何 map 端 Join。
Hive 中 修改表的 rawDataSize = 1 14: jdbc:hive2://ark3:9994> alter table app_uuid_info_test set tblproperties(rawDataSize=1)14: jdbc:hive2://ark3:9994> ;HBASE 表是不会根新的所有手工指点这个 阀值 set spark.s...原创 2018-03-04 19:31:36 · 992 阅读 · 0 评论 -
spark datasource
DataFrameWriterformatval cls = DataSource.lookupDataSource(source, df.sparkSession.sessionState.conf)private var source: String = df.sparkSession.sessionState.conf.defaultDataSourceNam...原创 2018-03-16 16:36:56 · 1668 阅读 · 0 评论 -
udaf 返回的 子属性
udaf 返回的 子属性spark.sql("select createCrowdHllc(uuid,tmp_id,'crowdid_appid').uuiduv from h5 ").show(10)package cn.analysys.udf.crowdimport cn.analysys.batch.userprocess.HbaseInit...原创 2018-03-20 13:22:46 · 234 阅读 · 0 评论 -
thriftserver log4j.properties 生效
/home/isuhadoop/spark2/sbin/start-thriftserver.sh --driver-class-path /home/isuhadoop/ark_data_bin/jar/fangzhou-nbdata-stream-1.0.jar:/home/isuhadoop/spark2/conf/hbase-site.xml:/home/isuhadoop/spark2/...原创 2018-04-09 11:46:02 · 306 阅读 · 0 评论 -
test code2
package org.test.udfimport com.google.gson.{Gson, GsonBuilder}import org.apache.spark.sql.Rowimport org.apache.spark.sql.api.java.UDF2import org.apache.spark.sql.expressions.{MutableAggregat...原创 2017-09-03 13:45:18 · 148 阅读 · 0 评论 -
test code
def taskcal(data:Array[(String,Long)],rt:Array[String],wd:Int):Array[Boolean]={ val result = Array.fill[Boolean](rt.length)(false) val sortData = data.sortBy(_._2) val indexArrayLength...原创 2017-08-24 17:52:17 · 560 阅读 · 0 评论 -
SPARK 宽依赖 和窄依赖 transfer action lazy策略之间的关系
下面这段在网上拷贝的 宽依赖 和窄依赖 说明该操作是 是否有shuffler 操作 成长(lineage )的来源 最有趣的部分是DAGScheduler。下面详解它的工作过程。RDD的数据结构里很重要的一个域是对父RDD的依赖。如图3所示,有两类依赖:窄(Narrow)依赖和宽(Wide)依赖。 图3 窄依赖和宽依赖窄依赖指父RDD的...原创 2014-09-20 11:22:49 · 422 阅读 · 0 评论 -
spark 广播(broadcast)变量 和Accumulator
Spark 还有两个很实用的功能。 一个是广播(broadcast)变量。有些数据,如lookup表,可能会在多个作业间反复用到;这些数据比RDD要小得多,不 宜像RDD那样在节点之间划分。解决之道是提供一个新的语言结构——广播变量,来修饰此类数据。Spark运行时把广播变量修饰的内容发到各个节点,并保 存下来,未来再用时无需再送。相比Hadoop的distributed cache,...原创 2014-09-20 11:41:54 · 227 阅读 · 0 评论 -
apark 运行和调度
拷贝文档 备用理解 图2显示了Spark程序的运行场景。它由客户端启动,分两个阶段:第一阶段记录变换算子序列、增量构建DAG图;第二阶段由行动算子触 发,DAGScheduler把DAG图转化为作业及其任务集。Spark支持本地单节点运行(开发调试有用)或集群运行。对于后者,客户端运行于 master节点上,通过Cluster manager把划分好分区的任务集发送到集群的worker...原创 2014-09-20 11:57:02 · 404 阅读 · 0 评论 -
spark 不同执行方式的运行期分析
结论 我还是学学 yarn-server 单个作业yarn-clinet 的吧 交互 之前的mr 模型 1\ client 会执行inputformat 的getsplit ,write 成文件,然后提交job 包含资源(jar ,conf,..)2\ yarn 的RM 接手,分配AM3\ AM 接受,找RM 要资源 找NODENAMAG...原创 2014-09-20 12:32:03 · 187 阅读 · 0 评论 -
Spark 都干啥
1. 腾讯广点通是最早使用Spark的应用之一。腾讯大数据精准推荐借助Spark快速迭代的优势,围绕“数据+算法+系统”这套技术方案,实现了在“数据实时采集、算法实时训练、系统实时预测”的全流程实时并行高维算法,最终成功应用于广点通pCTR投放系统上,支持每天上百亿的请求量。基于日志数据的快速查询系统业务构建于Spark之上的Shark,利用其快速查询以及内存表等优势,承担了日志数据的即...原创 2014-09-21 21:02:05 · 411 阅读 · 0 评论 -
spark rdd 和 DF 转换
RDD -》 DF 有两种方式一、 一、Inferring the Schema Using Reflection 将 RDD[t] 转为一个 object ,然后 to df val peopleDF = spark.sparkContext .textFile("examples/src/main/resources/people.txt"...2016-08-07 18:04:41 · 5240 阅读 · 0 评论 -
dataframe 和 dataset api
dataframe scala> teenagersDFres14: org.apache.spark.sql.DataFrame = [name: string, age: bigint] scala> teenagersDF.!= flatMap repar...原创 2016-08-07 18:12:12 · 149 阅读 · 0 评论 -
spark streaming 如何在 start 之后,修改闭包对象 。计算更新
spark streaming 在 start 之后 ,我想改变计算规则,系统报告不能修改. 异常如下 Exception in thread "Thread-14" java.lang.IllegalStateException: Adding new inputs, transformations, and output operations after startin...原创 2016-09-06 15:30:28 · 739 阅读 · 0 评论 -
数据挖掘中 分类 ,属性变量 如何变 double OHE
数据挖掘中,基本所有算法需求数据都是 二维 double 1 如果是 二变量 一个变 0 一个 变 12 其他的 以 index: dimentionvalue 来编码, 每个维度中,每种value用 用一个维度表示 //将train_cat_rdd中的(特征ID:特征)去重,并进行编号 var oheMap = train_ca...原创 2016-09-06 15:40:38 · 188 阅读 · 0 评论 -
spark rdd dataset sql udf udaf
以后 为了操作的便利性, 把逻辑都包装成 udf ,udaf . 写一个 包装接口, 对一份数据的操作 , 直接 在 repl 给 hdfs 加上 meta desc 在 repl 直接 写 sql . 出来的结果,直接拿 save . 可以积累 业务逻辑。 重用import org.apache.spark.sql.{R...原创 2016-10-22 11:58:02 · 308 阅读 · 0 评论 -
graph 属性和 方法 列表 , 记录下来学习
/** Summary of the functionality in the property graph */class Graph[VD, ED] { // Information about the Graph =================================================================== val numEdges: ...原创 2016-10-26 22:29:11 · 550 阅读 · 0 评论 -
settings.xml 这个库真的快 阿里云做了件好事
$M2_HOME/conf/settings.xml 尼玛 ,这个库真的快 阿里云做了件好事 alimaven aliyun maven http://maven.aliyun.com/nexus/content/groups/public/ central ...原创 2016-11-07 21:56:26 · 182 阅读 · 0 评论 -
udaf self define type
class HllcdistinctByte extends Aggregator[Row, HLLCounter, Array[Byte]] { // A zero value for this aggregation. Should satisfy the property that any b + zero = b def zero: HLLCounter = n...原创 2017-07-25 16:20:32 · 94 阅读 · 0 评论 -
spark , jar
cat conf/spark-defaults.confspark.yarn.jars hdfs:/app/jars/*.jar原创 2017-08-15 16:48:11 · 134 阅读 · 0 评论 -
struct streaming SQL udf udaf
object StructuredNetworkWordCount { def main(args: Array[String]) { if (args.length < 2) { System.err.println("Usage: StructuredNetworkWordCount ") System.exit(1) } ...原创 2017-08-15 18:06:55 · 177 阅读 · 0 评论 -
pipiline tf token
import org.apache.spark.ml.{Pipeline, PipelineModel}import org.apache.spark.ml.classification.LogisticRegressionimport org.apache.spark.ml.feature.{HashingTF, Tokenizer}import org.apache.spark.m...原创 2017-08-16 18:29:24 · 296 阅读 · 0 评论 -
struct streaming SQL udf udaf
spark aggregator class HllcdistinctByte extends Aggregator[Row, HLLCounter, Array[Byte]] { // A zero value for this aggregation. Should satisfy the property that any b + zero = b ...原创 2017-08-22 11:50:26 · 213 阅读 · 0 评论 -
Spark SQL运行 过程 抄的别人的,记录 学习
抄的别人的,觉得写的特别好 val FILESOURCE_TABLE_RELATION_CACHE_SIZE = buildStaticConf("spark.sql.filesourceTableRelationCacheSize")org.apache.spark.sql.catalyst.catalog.SessionCatalog#tableRelatio...原创 2018-05-13 23:07:43 · 539 阅读 · 0 评论