何安忆、-优快云博客

原创 JanusGraph API连接server

maven依赖 <dependency> <groupId>org.janusgraph</groupId> <artifactId>janusgraph-all</artifactId> <version>0.3.3</version> </dependency>或者

2021-09-17 16:55:08 675

客户端创建图结构和索引一、Schema创建1.gremlin客户端创建cd /opt/janusgraph/janusgraph-0.3.3#启动客户端./bin/gremlin.sh#获取链接JanusGraphFactory.open('conf/janusgraph-hbase-es.properties')#创建顶点标签，相当于顶点的类型，可以创建多种mgmt = graph.openManagement()mgmt.makeVertexLabel('event_node')

2021-09-17 16:02:13 884

原创 JanusGraph单机部署

一、安装包下载下载地址：https://github.com/JanusGraph/janusgraph/releases/选择对应Hbase版本下载（公司Hbase版本1.4.11，我选择了0.3.3版本）注：高版本客户端连接低版本Hbase会报错，报错会详细再说二、上传至服务器上传到要部署服务的机器三、文件解压mkdir /opt/janusgraph/mv ~/wangtianyu03/janusgraph-0.3.3.tar.gz ../opt/janusgraph/cd /o

2021-09-17 14:19:30 971

原创 Spark本地调试报错

Spark本地调试报错1.错误日志(1) Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/SparkConf(2) Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/SQLContext2.解决方案查看maven (或者sbt)的配置文件，将<scope>标签注释掉,或者修

2021-04-23 10:45:27 394

原创 Spark学习——累加器(Accumulator)

累加器主要用于多个节点对同一变量进行操作，可以在executor端使用driver端定义的变量；但是executor并不能读取累加器的值。累加器的类型1.Accumulator[Int]2.Accumulator[Double]3.Accumulator[Long]等自定义累加器1.spark1只需要继承AccumulatorParam，并重写addInPlace（）//累加操作zero（）//默认值下面是自定义String类型的累加器（scala版本），代码如下：obje

2020-05-14 11:50:12 854

原创 HIVE更改默认分隔符

大家都知道，hive是通过映射hdfs上的结构化文件的数据库表。默认的分割符如下分隔符描述\n行分隔符^A字段分隔符 \001^Barray、struct的元素间的分隔符，map的键值对与键值对间分隔符 \002^Cmap中键与值之间的分隔符\003一、建表时指定 CREATE EXTERNAL TABLE `dw_ads.ads_te...

2019-07-16 15:32:21 4617

原创 KUDU学习笔记（三）

遇到的一些问题：1. impala上创建kudu内部表在impala客户端上查看表明为kudutable，但在kudu上表名却是impala::database.kudutable2.impala和kudu的timestamp在impala上的timestamp是不同的，impala的精确到秒，kudu则精确到毫秒所以在impala映射kudu表是timestamnp类型的字段无法正常使...

2019-07-02 15:36:44 2049

原创 push to origin/master was rejected 解决方案

idea上push代码，提示： push to origin/master war rejected"。1.切换到自己项目所在的目录打开git bash2.依次执行以下命令git pullgit pull origin mastergit pull origin master --allow-unrelated-histories3.idea上重新push，ok...

2019-04-29 17:34:51 171

原创 KUDU学习笔记（二）

存储架构Kudu的存储是将一个Table 拆分成多个Tableat进行存储的。当然不是指像Hbase一样，当一个Region数据量达到一定大小后进行动态的拆分。Kudu在建表时需要事先制定分区数量。可以通过Range或Hash的方式来进行分区，分多少个区就存在多少个Tablet。需要注意的是这两种分区方式只能通过主键来进行操作，Range只能根据单个主键进行分区。Hash则可以根据多个主键进行分...

2019-04-25 20:53:00 509

原创 KUDU学习笔记（一）

开发背景

2019-04-25 19:22:37 650

原创 sqoop报错总结

缺少MYSQL JDBC驱动ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: Could not load db driver class:com.mysql.jdbc.Driverjava.lang.RuntimeException: Could not load db driver ...

2019-04-25 16:01:54 1602

原创 Hive进行MR操作时只能启动一次客户端操作一次

问题描述：今天在Hive在进行插入操作时，只能插入一次，第二次就会报错；每次启动客户端就只能有一次MR操作，报错如下：根据报错提示为yarn.resourcemanager.zk-address。参数为空查看yarn-site.xml 文件并不为空。查看版本为Hadoop3.2+zookeeper3.4.13+hive3.1.1查看Hadoop官方文档发现Hadoop3。yarn...

2019-04-12 18:48:01 339

原创使用Sqoop将Mysql数据导入Hive踩坑

背景：由于公司这个项目存在阿里云上，不能由DBA来维护，所以想要把数据从Mysql抽取到Hive上就需要我们自己来动手。。。数据量不是很大，但是分了巨多的库；需要导入的只有7张表，但是大概有94个库，每个库下边都有这七张表。初步设计方案是在把Mysql不同数据库的数据存放在Hive表不同的分区，就是一张hive表大概有90多个分区。最初想法：1.先用sqoop复制表结构；2.循环数据库...

2019-04-12 17:25:54 2867

weixin_39347555的博客

原创 spark读取es数据