lazyman001-优快云博客

原创 es乐观锁写法

2 version版本同时被两个线程拿到，但是只有一个线程能将verson版本修改成功，所以达到乐观锁的目的。1 必须更新文档信息，version版本才会自动增加。例：thread1 version 4->5。两个只有一个能修改成功。

2023-10-12 10:54:15 188

1 讲mysqlbinlog二进制日志转为可读mysqlbinlog -v --base64-output=decode-rows /var/lib/mysql/mysql-bin.000086 \--start-datetime='2022-05-27 00:00:00' \--stop-datetime='2022-05-28 00:00:00' \>./row.log-- 查看详细的binlogshow binlog events;-- 查看所有的binlogshow

2022-05-31 10:17:10 168

原创 hive业务中如果求一个总注册户数（1 可能会登记多次，2 但是我们只求一次）

1求总户数1 一个房间可能被不同天数登记多次，但我们只需要只有房间人大于1我们就算1次2 这时候如果按天分组会导致这个房间会被重复算3 博主想到一个办法：我们对这个房间注册的进行排序然后只拿时间较前的第一个这样就可以房间就只能算1了 SELECT a.court_id, sum(if(a.id_count >= 1, 1, 0)) house_count, a.

2021-11-09 11:25:28 1097

原创 hive不能使用not in怎么办

1 建议用left join代替，主表要为大表，然后附表中的字段为null晒选出去这样就可以查出not in 的数据 SELECT a.court_id, sum(if(a.id_count >= 1, 1, 0)) house_count, a.day_time from ( select

2021-11-09 11:13:07 2451

原创 hive跟nvl较相似的函数，参数可以更多

非空查找函数: COALESCE语法: COALESCE(T v1, T v2,…)说明: 返回参数中的第一个非空值；如果所有值都为NULL，那么返回NULL举例：selectCOALESCE(t1.area_code,t2.area_code,t3.area_code,t4.area_code,t5.area_code),COALESCE(t1.area_name,t2.area_name,t3.area_name,t4.area_name,t5.area_name),COALESCE(t1

2021-11-02 09:26:24 1770

原创 hive的nvl函数使用对于bigdata类型和int类型

hive的nvl函数使用对于bigdata类型和int类型1 如果建表语句是int类型，hivesql中使用了nvl（字段，0）则有数据返回的也是0（所以使用nvl建表语句类型不能为int）2 如果建表语句是bigdata，hivesql中使用了nvl（字段，0）则返回数据正常...

2021-10-26 16:12:42 477

原创 hive的动态静态分区

1 动态分区必须根据字段里的值来分区，动态分区是根据数据的某个字段值分到对应分区2 静态分区就是你把这批数据统一写到指定分区，表里没这个字段3 load的时候一定是静态分区，表中存不存在分区字段不会报错，但是load必须指定分区...

2021-05-11 09:49:22 139

原创 spark处理表到表的操作，需要保证顺序

1## 标题：背景从kafka出来的数据然后根据数据中的一个字段判断是插入\更新\删除数据首要前提：从kafka来的一批数据其中有可能对这一条数据有好几种操作，所以这需要保证有序、1 首先想法是把所有的数据分到一个分区然后这样可以保证全局有序，但是这样数据量变大就不可以使用了2 第二种想法是多分区排序，然后在collect也可以保证全局有序，但是可能会driver压力会很大例：object SparkSortByApplication {def main(args: Array[String])

2021-03-11 18:29:57 513

原创 spark读redis，JAVA版

SparkConf sparkConf = new SparkConf().setAppName(“MyApp”).setMaster(“local[*]”).set(“spark.redis.host”, “localhost”).set(“spark.redis.port”, “6379”);RedisConfig redisConfig = RedisConfig.fromSparkConf(sparkConf);ReadWriteConfig readWriteConfig = Read

2021-01-26 16:57:11 495

原创 spark.textfile读取目录

spark.textfile读取目录1 需要在路径后加才可以读取目录下的所有文件2 如果目录下还有目录，需要//*等等来获取所有目录

2020-12-24 16:01:32 331 1

原创 spark的闭包

spark的闭包val a ＝nullrdd.foreach(x ＝>{a ＝ x })因为闭包无法将x的值传递给x在外面打印有两种方法1 rdd.collect讲值返回driver2使用累加器方式

2020-12-24 15:48:34 233

原创 sparksteaming与kafka手动保存offset

1 如果读取存在数据库fromoffset数据为空，那么offset会优先从kafka中获取上次的offset，2 如果用DB方式存读offset，此时fromoffset为空，也没有手动保存offset到kafka当中，那么每次起程序都会读取之前保存在kafka中的offset，知道手动将offset保存到kafka当中下次读取才回改变...

2020-12-07 18:11:22 180

原创 sparkstreaming需要每个批次都可以打印出数据

sparkstreaming需要每个批次都可以打印出数据此时需要用到foreachrdd

2020-11-02 11:17:15 152

原创 2020-11-02

sparkstreaming需要没个批次都可以打印出数据此时需要用到foreachrdd

2020-11-02 11:16:32 113

原创 sparksql用jdbc读mysql，然后将df转成rdd来使用

package com.chao.huangimport java.util.Propertiesimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, Row, SparkSession}import org.apache.spark.{SparkConf, SparkContext}/**@author by chaohuang@date 2020/6/23*/object sparkJDBC

2020-06-23 21:46:56 646

原创取出mysql中的数据将数据转成RDD后并和rdd交集：交集只能完全相同的rdd

val username = “root”val password = “huangchao”val drive = “com.mysql.jdbc.Driver”val url = “jdbc:mysql://slave2:3306/travel”var connection:Connection = nullval sparkConf = new SparkConf().setAppName("HBaseReadTest").setMaster("local[2]")val sc = new

2020-06-16 21:58:17 218

原创用scala读redis的数据，将javamap改成scalamap

package com.chao.huangimport java.utilimport java.util.Mapimport org.apache.spark.{SparkConf, SparkContext}import redis.clients.jedis.Jedis/**@author by chaohuang@date 2020/6/13*/object readRedis {def main(args: Array[String]): Unit = {val c

2020-06-14 11:40:04 278

转载 flume - kafka - spark

转载：开源中国https://my.oschina.net/sunmin/blog/6929941.架构第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接2.安装flume,kafkaflume ins...

2020-03-17 17:47:36 266

转载 kafkaProducer 1.1 读取文件目录文件，发送到kafka Topic

package domain;import org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.Producer;import org.apache.kafka.clients.producer.ProducerRecord;import java.io.*;im...

2020-03-17 16:59:40 516

原创反爬虫项目五：nginx与kafka的整合

Lua集成kafka场景描述对于线上大流量服务或者需要上报日志的nginx服务，每天会产生大量的日志，这些日志非常有价值。可用于计数上报、用户行为分析、接口质量、性能监控等需求。但传统nginx记录日志的方式数据会散落在各自nginx上，而且大流量日志本身对磁盘也是一种冲击。我们需要把这部分nginx日志统一收集汇总起来,收集过程和结果需要满足如下需求:1、支持不同业务获取数据,如监控...

2020-02-27 20:51:08 479

原创反爬虫项目二：lua的安装和openresty

OpenResty安装过程因为OpenResty是nginx和lua的整合版，所以需要安装对应的依赖库yum install -y readline-devel pcre-devel openssl-devel perl gcc第一步：解压第二步：./configure --prefix=/usr/local/openresty --with-http_stub_status_module...

2020-02-25 22:02:47 361

原创反爬虫项目一：web导入的注意

用import project的方式导入项目保证idea的maven配置环境正常需要保证历依赖得路径更改mysql和 redis的连接配置（resources包里的config.properties）！！！master也可以写成redis集群的各个节点例：redis01，redis02等，但有的master不可以本地需要安装tomcat: 需要在本地将此apache-Tom...

2020-02-24 23:15:31 258