
SparkSql/hive/DB
sparkSQL/hive和mysql等传统关系型数据库
羲凡丞相
get busy living ,or get busy dying
展开
-
Spark2.0 读写Redis数据(scala)——redis5.0.3
@羲凡——只为了更好的活着Spark2.0读写Redis数据(scala)特别强调楼主使用spark2.3.2版本,redis5.0.3版本1.准备工作在pom.xml文件中要添加<dependency> <groupId>com.redislabs</groupId> <artifactId>spark-redis</artif...原创 2019-03-08 16:15:33 · 8610 阅读 · 12 评论 -
踩坑——Mongodb mongoexport -q 的使用
@羲凡——只为了更好的活着踩坑——Mongodb mongoexport -q 的使用先说干货,使用mongoexport -q 需要注意以下两点第一,-q 后面的参数一定要写成标准的json格式,如果怕自己写的不对,找一个json解析工具验证一下第二,一定要将json用单引号包起来,放在 -q的后面,切记切记成功样例如下:mongoexport --authenticationDatabase admin --host 10.10.227.227 --port 30000 \-q '{"ch原创 2020-08-17 15:07:09 · 4125 阅读 · 1 评论 -
Mongodb 安装——mongodb4.0.19
@羲凡——只为了更好的活着Mongodb 安装——mongodb4.0.191.下载/解压/配置环境变量wget https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-4.0.19.tgztar -zxf mongodb-linux-x86_64-rhel70-4.0.19.tgz -C /opt/modules/vim /etc/profile #mongodb export MONGODB_HOME=/opt/modul原创 2020-08-11 11:02:24 · 531 阅读 · 0 评论 -
TiDB 单机安装测试集群(Docker Compose)
@羲凡——只为了更好的活着TiDB单机安装测试集群(Docker Compose)1.准备环境a.安装Docker(Ubuntu/Centos)b.安装Docker Compose# 基础环境yum -y install gcc python-devel# 安装pip并升级(检验命令为 pip -V)yum -y install epel-release python-pippip install --upgrade pip# 安装docker-composepip install d原创 2020-05-26 14:42:48 · 337 阅读 · 0 评论 -
Centos7 安装postgre9.6
@羲凡——只为了更好的活着Centos7 安装postgre9.61.yum安装yum -y install https://download.postgresql.org/pub/repos/yum/9.6/redhat/rhel-7.6-x86_64/pgdg-centos96-9.6-3.noarch.rpmyum -y install postgresql96.x86_64 po...原创 2020-01-20 17:31:51 · 323 阅读 · 0 评论 -
Hive 向表中load数据过滤首行
@羲凡——只为了更好的活着Hive 向表中load数据过滤首行建表语句如下:CREATE TABLE `stu_info`( `name` string, `age` int)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'TBLPROPERTIES ('skip.header.line.count'='1');如果表已经建好,可...原创 2019-07-19 11:47:21 · 2247 阅读 · 0 评论 -
SparkSql 自定义Map合并函数——保留旧Map有但新Map没有的Key
@羲凡——只为了更好的活着SparkSql 自定义Map合并函数——保留旧Map有但新Map没有的Key业务中有些hive/cassandra表的部分字段是map,如果要更新mapq且保留旧Map有但新Map没有的Key,该如何操作?我的解决方式是自定义如下函数spark.udf.register("merge_map", (newMap: Map[String,String]...原创 2019-07-04 09:34:10 · 1267 阅读 · 1 评论 -
SparkSql 控制输出文件数量且大小均匀(distribute by rand())
@羲凡——只为了更好的活着SparkSql 控制输出文件数量且大小均匀(distribute by rand())Q:Spark如何控制文件你输出数量?A:这个简单,用 coalesce或者repartition,num=(1.0*(df.count())/7000000).ceil.toIntQ:Spark让输出文件大小均匀?A:在sparksql的查询最后加上distribute b...原创 2019-06-20 12:08:10 · 22868 阅读 · 3 评论 -
Spark2.0 插入/更新mysql数据(scala)
@羲凡——只为了更好的活着Spark2.0 插入/更新mysql数据(scala)特别强调楼主使用spark2.3.2版本1.准备工作在pom.xml文件中要添加<dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId>...原创 2019-05-06 14:05:54 · 3943 阅读 · 4 评论 -
Hive2.0安装完整版——Hive2.3.4
@羲凡——只为了更好的活着Hive安装完整版——Hive2.3.4Hive是大数据生态圈中最常用的数据仓库,也是有hadoop集群的公司的必备。所以hive安装和使用也是大数据开发或运维人员都必须掌握的。hive的安装很简单,而且各版本的安装都非常类似,完全可以套用。此文中选择Hive2.3.4作为示范!一、下载对应的安装包1.下载mysql驱动下载地址如下http://central...原创 2019-01-16 18:19:03 · 8206 阅读 · 15 评论 -
Mysql 离线安装——Mysql5.7.25
@羲凡——只为了更好的活着Mysql离线安装——Mysql5.7.250.为懒人服务如果你觉得下载安装包和依赖包很麻烦,可以直接从下面链接下载完整的安装包(含三个依赖包),然后可以直接跳过下面的第一步和第二步。https://download.youkuaiyun.com/download/weixin_42003671/110222301.下载安装包官网地址 https://dev.mysql....原创 2019-03-15 16:05:47 · 1142 阅读 · 1 评论 -
Spark2.0 读写mysql数据(scala)
@羲凡——只为了更好的活着Spark2.0 读写mysql数据(scala)特别强调楼主使用spark2.3.2版本1.准备工作在pom.xml文件中要添加<dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> ...原创 2019-04-01 10:54:38 · 897 阅读 · 1 评论 -
Mysql 常用核心技能
@羲凡——只为了更好的活着Mysql 常用核心技能1.建表CREATE TABLE `stu_info` ( `student_id` CHAR(3) NOT NULL, `name` VARCHAR(20) NOT NULL, `age` INT, `create_time` DATETIME DEFAULT CURRENT_TIMESTAMP, PRIMARY KEY...原创 2019-04-16 11:51:55 · 215 阅读 · 1 评论 -
Hive 行转列 explode和inline(lateral view)
@羲凡——只为了更好的活着任何一个数据库都会涉及到行转列的问题,也同时会有相应的方法,比如mysql中的pivot。hive中使用的则是 lateral view explode1.语法说明select source_column,new_column from source_table lateral view explode(source_column) new_table as n...原创 2019-03-04 19:10:16 · 4386 阅读 · 1 评论 -
Hive 常用核心技能
@羲凡——只为了更好的活着Hive是一个非常常用的数据仓库,任何一家公司都会有,只是用的深浅的区别。下面我总结一下自己用到的一席hive知识点1.创建库和表CREATE DATABASE [IF NOT EXISTS] userdb; #创建数据库CREATE DATABASE [IF NOT EXISTS] userdb; #创建数据库```sqlCREATE TABLE IF N...原创 2019-01-23 13:00:16 · 347 阅读 · 0 评论