- 博客(14)
- 资源 (1)
- 收藏
- 关注
原创 IDEA 出现Cannot Download Sources的问题
有时候明明对应的依赖已经添加了,并且在External Libraries里也看到对应的依赖包了,但想看源码的时候就是看不到详细内容,点download sources也显示Cannot Download Sources,此时只需要在Terminal根目录下输入:mvn dependency:resolve -Dclassifier=sourcesIDEA会重新下载依赖包,下载完后再看源...
2019-02-20 16:30:42
8954
3
原创 HBase 读写流程
Hbase读写流程写流程:· zookeeper中存储了meta表的region信息,从meta表获取相应region信息,然后找到meta表的数据· 根据namespace、表名和rowkey根据meta表的数据找到写入数据对应的region信息· 找到对应的regionserver· 把数据分别写到HLog和MemStore上一份· MemStore达到一...
2019-02-11 16:36:35
303
原创 总结几点Kafka性能调优的方法
思考一个问题:高并发的场景都喜欢用Kafka做中间件,为什么?答:消息解耦需要用中间件,Kafka有几点优势:1. 底层消息传递(FileChannel.transferTo API) 运用到Zero-Copy技术,简单概括就是减少数据从内核空间(Kernel Context)到用户空间(Application Context) 之间转换的次数,从而降低CPU资源的开销;参考资料:...
2019-02-06 18:41:33
1349
原创 SparkCore / SparkSQL中窗口函数RANK, DENSE_RANK, ROW_NUMBER的区别
RANK, DENSE_RANK, ROW_NUMBER都是把表中的行按分区内的排序标上序号,但有一点差别:RANK:可以生成不连续的序号,比如按分数排序,第一第二都是100分,第三名98分,那第一第二就会显示序号1,第三名显示序号3。DENSE_RANK: 生成连续的序号,在上一例子中,第一第二并列显示序号1,第三名会显示序号2。ROW_NUMBER: 顾名思义就是行的数值,在上一例...
2019-01-28 12:26:47
4047
1
原创 IDEA笔记 :设置自动生成SerialVersionUID
SerialVersionUID 在实现接口Serializable 时都会用到,如何在IDEA中设置自动生成这句代码:然后光标移动实现的类名字,ALT+Enter, 选Add 'serialVersionUID' field: ...
2019-01-12 16:35:49
271
原创 Spark RDD 初始分区数
local:一个线程 -------- sc.defaultParallelism值为 1local[*]:服务器core数量 ----- sc.defaultParallelism的值为 8local[4]:4个线程 ----- sc.defaultParallelism的值为 4 spark.default.parallelism参数值的说明:如果spark-default.co...
2018-11-13 15:31:30
678
原创 python 3.6 datetime库的几个常用函数
导入datetime库:from _datetime import datetime (1)datetime.now() : 获取当前时间 (年月日时分秒微秒)输入:datetime.now()输出:datetime.datetime(2018, 11, 13, 14, 44, 6, 744866)输入:print(datetime.now())输出:2018-11-13 ...
2018-11-13 15:21:42
1608
原创 搭建mongoDB Shard集群
这里是用虚拟机模拟mongoDB Shard集群的搭建过程,实际项目中更多的shard server,搭建方法也一致。准备环境:Hosts: lin01.cniao5.com (启动3个configuration server实例,互为replSet, 启动mongos服务)lin02.cniao5.com (启动3个shard server实例,互为replS...
2018-11-06 23:33:37
516
原创 Spark里如何把结果写入MySQL
这里说的Spark包含SparkCore/SparkSQL/SparkStreaming,实际上都一样操作。以下展示的都是实际项目中的代码。方法一:把整个DataFrame一次写入MySQL (DataFrame的Schema要和MySQL表里定义的域名一致) Dataset<Row> resultDF = spark.sql("select hphm,...
2018-11-06 22:43:13
2055
原创 Java里Date类的parse和format方法
Date date = new Date(); //获取当前系统时间,格式为: Thu Nov 01 18:27:06 CST 2018format: 按指定的目标格式把Date对象转换为Stringparse: 按指定的源格式把String转换为Date对象public class test { public static void main(String[] args) ...
2018-11-01 18:52:00
21426
1
原创 left join和left outer join的区别
答案是没区别!left join是left outer join的缩写,所以作用是一样的。另外在SQL里没有区分大小写,也就是left join和LEFT JOIN都是可以的。left join: 包含左表的所有行,对应的右表行可能为空。right join: 包含右表的所有行,对应的左表行可能为空。full join: 只包含左右表都匹配并且不为空的行。...
2018-10-27 02:05:03
105150
4
原创 Linux下的crontab的使用方法
如果提示:-bash: crontab: command not found,表示没有安装crontab,需要手动安装。安装crontab:1. 确认crontab是否安装:执行 crontab 命令如果报 command not found,就表明没有安装2. 安装 crontab执行 yum install -y vixie-cron3. 确认是否安装成功:执行 cronta...
2018-10-26 18:53:47
279
原创 记录一下spark SQL里concat_ws和collect_set的作用
官方文档:http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions$ concat_ws: 用指定的字符连接字符串例如:连接字符串:concat_ws("_", field1, field2),输出结果将会是:“field1_field2”。数组元素连接...
2018-10-21 15:39:57
12584
1
转载 Java 时间格式转换大全
Java时间格式转换大全import java.text.*;import java.util.Calendar;public class VeDate {/** * 获取现在时间 * * @return 返回时间类型 yyyy-MM-dd HH:mm:ss */public static Date getNowDate() { Date curren...
2018-10-15 17:30:38
1671
hadoop-2.5.0-cdh5.3.6 编译native包
2018-06-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人