塞上江南o-优快云博客

目录项目经验之LZO压缩配置1）hadoop`本身并不支持lzo压缩`，故需要使用twitter提供的hadoop-lzo开源组件。`hadoop-lzo需依赖hadoop和lzo进行编译`，编译步骤省略。2）将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-2.7.2/share/hadoop/common/3）同步hadoop-lzo-0.4.20.jar到替他所有节点4）在core-site.xml文件中增加配置支持LZO压缩5）同步core-site.xml到替他所有节点6）

2021-01-02 11:45:19 581

原创 idea pycharm 常用快捷键自定义快捷键

1. 展开所有代码 ==> ctrl+shift+等号2. 展开所有代码 ==> ctrl+shift+减号

2020-12-24 10:30:39 1768 1

原创 idea 优化

目录idea设置背景图片idea 设置文件夹为层级展示idea 设置忽略大小写idea 设置多行tabs展示idea 设置各个方法用分割线分割idea设置自动导包优化idea 设置ctrl + 鼠标滚轮调整字体大小idea设置背景图片idea 设置文件夹为层级展示idea 设置忽略大小写idea 设置多行tabs展示效果设置idea 设置各个方法用分割线分割效果设置idea设置自动导包优化idea 设置ctrl

2020-12-24 10:30:22 3185 4

原创 hive java_method reflect

hive java_method reflect

2020-12-20 16:24:18 233

原创 c语言指针

目录c语言指针c语言指针概念c语言指针大小c语言指针类型的意义c语言指针c语言指针概念指针是个变量，存放内存单元的地址（编号）。#include <stdio.h>int main(){ int a = 10; // 在内存中开辟一块空间，存储10 int* p = &a; // 这里我们对变量a，取出它的地址，可以使用&操作符。 //将a的地址存放在p变量中，p就是一个之指针变量。 return 0;}c语言指针大小指针的大小在32位平

2020-12-16 09:09:29 5223 2

原创 C语言一个简单测试程序

运行软件：vs 2019#include<stdio.h>int main(){ int num1 = 0; //输入一个数字 scanf("%d", &num1); //将这个数字输出 printf("num1 = %d\n", num1); return 0;}报错如下：'scanf: This function or variable may be unsafe. Consider using scanf s instead. To disable de

2020-12-14 10:56:23 2577

原创 c语言面试前必备基础知识

目录c语言数据类型c语言打印格式c语言变量常量c语言变量又分为：局部变量全局变量c语言数据类型char //字符数据类型 1个字节short //短整型 2个字节int //整形 4个字节long //长整型 32位OS 4个字节(32位OS 8个字节)long long //更长的整形 8个字节float //单精度浮点数 4个字节 eg:申请一个 float 型变量 float x = 3.4fdouble //双精度浮点数 8个字节 eg:申请一个 double 型变量 d

2020-12-13 18:38:52 5550 4

原创 SparkSQL项目实战：TopN

SparkSQL项目实战：TopN

2020-12-01 09:15:17 1861

原创 Spark SQL 代码读取mysql&代码读取hive

Spark SQL 代码读取mysql&代码读取hive

2020-12-01 09:14:16 858

原创 Spark SQL API SQL & DSL风格 RDD DF DS 三者之间的转换用户自定义函数UDF UDAF

Spark SQL API SQL & DSL风格 RDD DF DS 三者之间的转换用户自定义函数UDF UDAF

2020-12-01 09:12:31 806 1

原创 hive 增强聚合函数 with rollup

hive 增强聚合函数 with rollup

2020-12-01 08:47:42 960 2

原创 SparkCore项目实战需求一Top10热门品类需求二Top10热门品类下每个品类的Top10活跃用户统计需求三计算页面单跳转换率

SparkCore项目实战需求一Top10热门品类需求二Top10热门品类下每个品类的Top10活跃用户统计需求三计算页面单跳转换率

2020-12-01 08:07:21 1478 1

原创 Spark DStream创建通过队列自定义数据源 Kafka数据源

Spark DStream创建通过队列自定义数据源 Kafka数据源

2020-12-01 08:05:28 603 1

原创 Spark 无状态化转换原语&有状态转化原语

Spark 无状态化转换原语&有状态转化原语

2020-12-01 08:04:28 715

原创 Spark DStream输出原语-foreachRDD&使用SparkSQL处理采集周期中的数据

Spark DStream输出原语-foreachRDD&使用SparkSQL处理采集周期中的数据

2020-12-01 08:01:17 696

原创 Spark Streaming项目实战项目一每天每地区热门广告Top3 项目二最近12s广告点击量实时统计

Spark Streaming项目实战项目描述本实战项目实时分析处理用户对广告点击的行为数据。项目数据生成方式使用代码的方式持续的生成数据，然后写入到kafka中，然后从kafka消费数据，并对数据根据需求进行分析。项目数据格式时间戳, 地区, 城市, 用户id，广告id1566035129449, 华南, 深圳, 101, 2项目准备步骤1: 开启集群启动 zookeeper 和 Kafka步骤2: 创建 Topic#查看kakfa都有哪些主题 bin/k

2020-12-01 07:58:13 894

原创 spark 广播变量

spark 广播变量

2020-11-30 15:33:07 3035

原创 spark 累加器

spark 累加器

2020-11-30 15:32:05 2449

原创 spark 读取json 读取MySQL 写入MySQL

IO读取jsonpackage com.xcu.bigdata.spark.core.pg02_ioimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * @Package : com.xcu.bigdata.spark.core.pg02_io * @Author : * @Date : 2020 11月星期二 * @Desc : 读取json(json格式的字符串要

2020-11-30 15:30:40 765

原创 RDD Cache缓存 CheckPoint检查点缓存和检查点区别检查点存储到HDFS集群

RDD Cache缓存 CheckPoint检查点缓存和检查点区别检查点存储到HDFS集群

2020-11-30 15:29:09 661

原创 spark 血缘窄依赖宽依赖 Spark job 划分 DAG有向无环图

spark 窄依赖宽依赖 Spark job 划分 DAG有向无环图

2020-11-30 15:26:56 770

README.md-的基本语法使用的小步骤

vip_testdata.csv

空空如也