- 博客(104)
- 资源 (24)
- 问答 (1)
- 收藏
- 关注
原创 SQL SERVER Inregration Services-OLE DB、Oracle和ODBC操作
主要时添加ORACLE_HOME、TNS_ADMIN和PATH的值,这三个值都是Oracle Instant Client的安装目录(也就是解压目录) C:\software\instantclient_21_9。在“提供程序”的下拉框中,选中“Microsoft OLE DB Driver for SQL Server”,这个也就是解决上面的警告信息。在点击“新建”时,会弹出警告信息“不支持指定的提供程序,请在连接管理器中另选一个提供程序”,这个警告信息不用管他,直接点击“确定”即可;
2023-11-08 17:56:50
884
原创 SQL Server SSIS ETL job执行相关操作
SQL Server SSIS(SQL SERVER Integration Services) ETL 的job执行全流程
2023-11-08 17:43:27
879
原创 hive的多维度分析函数with cube和grouping__id的理解
hive的多维度分析函数with cube和grouping__id的理解
2022-04-15 17:20:54
2643
原创 关于kafka数据实时落地至hdfs
关于kafka数据实时落地至hdfs好久没有写博客了!关于如何使用spark streaming +kafka工具实现实时数据落地至hdfs目录import java.time.ZonedDateTimeimport java.time.format.DateTimeFormatterimport com.alibaba.fastjson.{JSON, JSONArray}import com.ipinyou.cdp.common.SparkBaseimport com.ipinyo
2021-05-18 21:15:03
1220
原创 win系统执行spark-sql报错:java.io.IOException: (null) entry in command string: null ls -F C:\tmp\hive
在IDEA中运行Spark SQL读取hdfs文件时报java.io.IOException: (null) entry in command string: null ls -F C:\tmp\hive的错,或者是报 Exception in thread "main" org.apache.spark.sql.AnalysisException: java.lang.RuntimeException: java.lang.RuntimeException: The root scratch dir:
2020-09-01 22:57:52
1140
原创 windows10使用git上传项目到gitlab
下载、安装git:https://git-scm.com/downloads下载后默认安装即可,git不需要其他额外的配置在gitlab上创建工程,设置visibility level为private,如:创建密匙:右击桌面:出现界面:在此界面上执行一下命令:git config --global user.name "注册gitlab的名字"git config --global user.email "注册gitlab的邮箱"ssh-keygen -t r
2020-09-01 22:57:10
588
原创 maven systemPath方式加载和打包
在开发工程中,有些jar是自己开发的,当被引用到其他工程或项目中时,需要把自己开发的jar添加到其他工程中。在此记录以下,使用IntelliJ IDEA 2019.2.3和apache-maven-3.3.9实现加载jar和使用maven打包时,把自己开发的jar打进去:在pom.xml文件中配置如下:在依赖中添加:<dependency> <groupId>com.scopa.graph</groupId> <artifactId>deep
2020-08-12 18:25:16
22962
2
原创 sparksql两种方式的执行效率
方式一: /**使用spark-sql实现的*/ def rhVisitor(ss: SparkSession,dt: String,per_hour: String,merchant: String): Unit ={ val startTime = System.currentTimeMillis() import org.apache.spark.sql.fun...
2020-07-26 19:36:10
1093
原创 Gremlin中匿名函数的应用
1、在TinkerPop3中使用命令或使用java等语言进行操作时,当使用"——"调用其他函数时,表示匿名调用,如out()、in()、count()等;也可使用"P"关键字来调用常用的比较函数,如比较函数neq()、gt()等2、使用"T"调用常用的图标签操作,如label。...
2020-07-26 19:26:28
340
原创 scala的breakOut的应用
问题:在scala中,List或Set等集合如何转换为Map集合?由List/Set转换Map集合时,一般情况下,需要对其元素以元组的形式,再通过toMap等函数实现。利用collections.breakOut的方式可直接由List/Set转换为Map集合,如:val breakOut: Map[Int, String] = List("china", "usa", "russia...
2020-03-30 21:22:56
550
原创 强连通体的GraphX的实现和解析
/**连通体*/object ConnectComponents { /**在图中若从某个顶点Vp出发,沿着一些边经过顶点V1,V2,。。。Vm到达Vg则称顶点序列(Vp,V1,V2....Vm,Vg)为从Vp到Vg的路径,其中Vp是路径的起始点,Vg为路径终点。 * 路径上的边的数目成为该路径的长度 * 连通:在无向图中,若从顶点Vi到顶点Vj之间有路径称为这两个顶点是连通...
2020-03-10 21:05:48
923
原创 TigerGraph算法库
把相应的算法实现加载到相应的Graph Schema上。从相应的地址把TigerGraph图数据库实现的算法库下载下来,最新下载目录:https://github.com/tigergraph/gsql-graph-algorithms在此,我把算法库,放在tigergraph的安装目录下,其目录如下:在tigergraph的用户(TigerGraph所设定的用户)下执行ins...
2020-03-10 20:57:44
903
3
原创 TigerGraph图数据库的数据加载_GraphStudio方式
Graph Schema创建成功后需要把数据映射到schema中。下面是使用可视化界面GraphStudio将数据映射到Graph Schema中。点击左边的“Map Data To Graph”的“Add data file”:注意事项:上传单个文件大小限制500M,还可以通过下面方法绕过该限制:若您的TigerGraph在本地部署的话,直接将文件或该文件的快捷方式放置到Tige...
2020-03-10 20:41:50
1200
原创 TigerGraph图数据库的数据加载_gsql方式
首先使用gsql把数据映射到Graph Schema上:在gsql shell情况下执行:USE GRAPH SocialBEGINCREATE LOADING JOB load_social FOR GRAPH Social { DEFINE FILENAME file1="/opt/tigergraph/document/examples/gsql_ref/social...
2020-03-10 20:30:42
773
原创 TigerGraph图数据库创建一个图Schema
以开发版的TigerGraph图数据库为例。若没有多图权限的话,若TigerGraph中已经有其他图数据,则会执行Drop ALL命令。以下是在gsql环境下执行。第一步:创建Vertex命令如下:CREATE VERTEX Person(PRIMARY_ID name STRING, name STRING, gender STRING) CREATE VERTEX关键字用...
2020-03-10 20:08:02
1092
原创 spark的broadcast理解
Broadcast(使用BroadcastManager管理)一般用于处理共享配置文件、常用的数据结构等;但Broadcast不适合存放太大数据,Broadcast不会内存溢出,因为数据保存级别StoreageLevel是MEMORY_AND_DISK模式。数据量大会造成网络I/O和单点压力大,因此,当数据量较大时不要使用broadcast,网络成本较大,会适得其反。广播变量:实际上就是Dri...
2019-08-05 22:16:27
978
原创 spark使用insertInto存入hive分区表中
把spark的处理结果存入hive分区表中,可以直接在sql中设定分区即可,可以使用withColumn算子执行 ss.sql("SELECT merchant_id,platform," + "case when trim(first_channel_id) = '' or first_channel_id is null then '-1' else first_cha...
2019-08-01 18:53:07
6047
原创 使用foreachPartition将结果写入外部存储
好久没有写了!!!记录一下 :最近有个小伙伴问我,使用spark处理的数据存入mysql中老是导致mysql链接超时或中断,我看了一下他的代码,想揍人,其代码如下:dstream.foreachRDD {rdd => rdd.foreachPartition{ partitionRecords => val connection = createNewConnec...
2019-08-01 18:34:02
1812
1
转载 事实表设计
1、事实表事实表一般至保存了大量业务事件的可度量的数据集合,从最低的粒度级别来看,事实表行对应一个度量事件。2、事务事实表3、周期快照事实表4、累计快照事实表5、三种事实表的区别...
2019-07-13 18:08:13
1148
1
原创 主题分析模型LDA的spark实现
主体分析模型主要有PLSA(Probabilistic Latent Semantic Anlysis,概率引语义分析)和LDA(Latent Dirichlet Allocation,隐含狄利克雷分布),在此暂时介绍LDA的spark实现。 * 主题分析模型自动分析每个文档,统计文档内的词语,根据统计的信息来判断当前文档含有 * 哪些主题,以及每个主题所占的比例格式多少。 ...
2018-12-14 22:26:20
1281
1
原创 spark之TF-IDF浅谈
所用或所学知识,忘了搜,搜了忘,还不如在此记下,还能让其他同志获知。在使用spark实现机器学习相关算法过程中,档语料或者数据集是中文文本时,使用spark实现机器学习相关的算法需要把中文文本转换成Vector或LabeledPoint等格式的数据,需要用到TF-IDF工具。何为TF-IDFTF(Term Frequency):表示某个单词或短语在某个文档中出现的频率,说白了就是词频,其...
2018-12-12 21:04:44
1189
原创 scala之闭包函数浅知
object Closure { /**scala闭包是一种函数:函数内部的变量不在其作用于时,仍然可以从外部进行访问。 * 定义闭包函数的过程是将函数外部的自由变量捕获并构成一个封闭的函数。 * 当函数外部的变量发生变化时,scala的闭包能捕获到变量的变化, * scala闭包捕获的事变量的本身而非变量的值*/ //闭包函数的应用,依赖于变量y,引用到函数c...
2018-12-08 21:50:38
350
翻译 高可用性的ResourceManager
YARN的架构图有图可知,ResourceManager(RM)对整个集群的重要就不言而喻了吧。但是由于多种原因可能会造成ResourceManager出现问题,由于单位的集群ResourceManager也出现问题,今天我分析一下ResourceManager的High Availability(高可用性)。ResourceManager的作用:负责协调集群上计算资源的分配,与Nod...
2018-12-08 21:49:08
1168
原创 Spark Streaming-Receiver启动和数据接收
养成一个记笔记的习惯!!!小案例:def fromsocket(ssc: StreamingContext): Unit ={ /**使用updateStateByKey前必须要设置checkpoint*/ ssc.checkpoint("hdfs://zhumaster:8020/data/checkpoint") /** 如使用socket网络嵌套字作为输入模式,使用命令...
2018-12-05 16:08:37
695
原创 Spark Streaming checkpoint的问题与恢复
/**虽然checkpoint是对Spark Streaming运行过程中的元数据和每次RDD的数据状态 * 保存到一个持久化系统中,实现高可用性。 * 即使 * /**当程序修改后打包成新程序后,可能会报错,若删除checkpoint的开头文件,只保留数据文件: * hadoop dfs -rmr /checkpoint/checkpoint* * 但是新程序虽然能重...
2018-11-29 17:21:59
2366
原创 图计算Hama-BSP模型的运行流程
Hama-architecture:Apache-hama集群是以BSP为框架为基础由一个BSPMaster、(多个)互不关联的GroomServer计算结点、可独立运行的Zookpeer集群组成。BSPMaster采用“先进先出”原则对GroomServer进行监控、job的提交处理、任务的分配和记录整个的运行动态,BSPMaster调用BSP类的setup方法、bsp方法和cleanu...
2018-11-28 16:03:57
814
原创 spark Executor执行结果的处理源码
从1.6后,Driver的BlockManagerMaster与BlockManager之间的通信不再使用AkkaUtil而是RpcEndpointSpark集群中有很多执行程序执行,需要很多Executor,CoarseGrainedExecutorBackend是Executor所在的进程,Executor需要CoarseGrainedExecutorBackend进行维护和管理。Coar...
2018-11-26 17:20:53
325
原创 从Application提交角度审视Executor
从Application提交的角度审视Executor,解密Executor到底是什么时候启动的以及Executor如何把结果交给Application。Executor何时启动SparkContext启动后,直接实例化createTaskScheduler方法,createTaskScheduler完成后,调用TaskScheduler的start方法,实际调用的是TaskSchedul...
2018-11-26 17:16:17
298
原创 zookeeper的伪分布式安装
我要养成记录的习惯!!!首先下载(版本zookeeper-3.4.12)-解压zookeeper伪分布式安装就是在同一台机器上安装多个zookeeper(即在同一台机器上有多个QuorumPeerMain进程)。我在同一台机器上安装了3个zookeeper。把解压完成的zookeeper-3.4.12重新命名为zookeeper01 : mv zookeeper-...
2018-11-08 16:19:24
519
原创 scala的相等性
在scala中一切都是对象!!!java中比较两个对象/属性是否相等:/**在java中,== 只会对java对象引用进行比较,对象引用的地址相同(内存中同一个位置)则返回true ; * 而equals是比较两个字段的值是否相等,若值相等则返回true * * 不过当比较Array或者Seq时,使用sameElements方法*/class EqualEq { ...
2018-10-26 10:54:41
812
原创 scala-for的基本应用
scala-for的应用:直接上代码。 def testfor01: Unit ={ val nieces = List("emily", "hananh", "mercedes", "porsche") /* 关键字yield:for循环中的yield会把当前的元素记录下来, 保存到集合中,循环结束后将返回该集合。 ...
2018-10-26 10:47:48
259
原创 scala-for推导:能够在for表达式中的最初部分定义值,并在(外面)后面的表达式中使用该值
在scala的for循环中,如何在不适用容器的情况下,在for循环(外面)后面调用其for中定义的属性。对象中包含None属性在for中如何剔除???两种情况写在同一个函数里面: /**for推导:能够在for表达式中的最初部分定义值,病在后面的表达式中使用该值 * 如upcaseBreed在println中使用*/ def roundingFor: Unit ={ ...
2018-10-26 10:23:12
241
原创 spark-cache的源码分析
private def persist(newLevel: StorageLevel, allowOverride: Boolean): this.type = { 。。。。。。 if (storageLevel == StorageLevel.NONE) { sc.cleaner.foreach(_.registerRDDForCleanup(this)) //清理缓存 s...
2018-10-26 09:46:59
356
转载 Spark性能调优之道——解决Spark数据倾斜(Data Skew)的N种姿势
看到一篇很不错的文章,关于解决spark计算过程中数据倾斜的解决方案:一位大牛的创作,谢谢http://www.infoq.com/cn/articles/the-road-of-spark-performance-tuning感谢作者...
2018-10-25 11:06:14
270
原创 spark与mysql:Did not find registered driver with class com.mysql.jdbc.Driver
CDH-5.8.3集群上spark-submit --master yarn。。。提交任务时,当使用mysql-connector-java-5.1.40-bin.jar等jar包时可能会出现以下问题:Did not find registered driver with class com.mysql.jdbc.Driver解决方案:每个节点(master节点和slave节点)把my...
2018-10-22 11:52:42
413
原创 spark关于数据倾斜问题
spark的数据倾斜调优方案归纳总结:不来虚的,直接上解决方法。数据倾斜产生原因:在运算过程中把数据分配给不同的Task,一般需要Shuffle过程,同一个Key都会交给Task处理,但是有时同一个Key的values数据量太多造成数据堆积等。判断是否发生数据倾斜:通过Web UI查看Task的metrics某些Task相当于其他大多数Task来说所消耗相当长的时间。数据倾斜解决方...
2018-10-16 09:53:49
378
原创 空值字段的hive处理
当遇到某个字段的属性值为空时,可以使用IF、ISNULL函数进行处理。hive的IF函数:IF(expr1,expr2,expr3) - If expr1 is TRUE (expr1 <> 0 and expr1 <> NULL) then IF() returns expr2; otherwise it returns expr3. IF() returns a...
2018-10-16 09:41:48
3062
原创 spark常用 算子小总结
import org.apache.spark.rdd.RDDimport org.apache.spark.{HashPartitioner, SparkConf, SparkContext}class RDDSuanzi { private[this] def rddBasics: Unit = { val sparkConf: SparkConf = new Spar...
2018-09-26 09:36:31
275
Delta Lake数据湖 English Version
2023-01-03
DataStage_V7.5_学习总结.doc
2021-01-05
TigerGraph图数据库应用.docx
2020-07-26
python基础教程
2017-09-27
hadoop海量数据处理详解与项目实战
2017-09-27
eclipse-svn包
2017-09-04
hadoop-eclipse-lpugin
2015-12-08
XMLConvertToJSON.jar
2015-11-27
hadoop-common-2.7.0.jar
2015-09-15
在维基百科上下载50G的xml导入mysql
2015-06-17
TA创建的收藏夹 TA关注的收藏夹
TA关注的人