- 博客(74)
- 收藏
- 关注
原创 g++编译--运行opencv步骤。
I opencv/include \ opencv/include/ =====/home/ops/proectc/code/opencv/include/opencv2/core.hpp 必须要有全部的.hpp文件 如果系统没有就必须指定。-L “opencv/lib” \ /指定so文件地址。-lopencv_gapi \ 指定so文件。用哪个指定哪个 必须指定。四:编译出的二进制文件如果想在其他机器运行。其他机器就必须安装有依赖库。一:下载opencv源码库。
2024-02-18 10:45:08
840
1
原创 openssl自签署CA
1:对称加密: 加密解密使用同一个密钥:DES(Data Encryption Standard) 块加密。3:单向加密:提取数据指纹。match:要求申请填写的信息跟CA设置信息必须一致,此为默认策略,也就时我们创建私有CA时需要注意国家,省份,机构需要和CA的配置相同。技术:加密解密、服务(用于抵御攻击的服务,也就是为了上述安全目标特地涉及的安全服务)1:数字签名:加密数据的特征码。2:公钥加密: 密钥成对出现。2:密钥交换 :用对方公钥加密一个对称密钥 并发送给对方。2 现代加密方法:块加密方法。
2023-03-14 18:32:26
325
原创 运维之路
一:关于yum install -y java-1.8.0-openjdk.x86_64没有jps的问题结局yum install -y java-1.8.0-openjdk-devel.x86_64二:进程管理ps 静态任务管理器【options】top
2021-05-17 22:48:40
194
2
原创 Docker_进阶之路
1.镜像 image2.容器 container3.仓库 repository一:安装Docker1.CentOS72.uname -r //查看系统内核3.cat /etc/os-release //查看系统配置4.安装Docker https://docs.docker.com/engine/install/centos/1.卸载 2.需要的安装包 yum install -y yum-utils 3.设置镜像地址 sudo yum-c
2021-04-21 22:55:40
115
原创 CDH遇到的问题汇总和常用命令
1.检查http服务是否开启systemctl status httpd.service本次没有开启是因为删了Log日志 通过查看http状态发现里面有个引用问题 重新建一个空的Log文件夹重启服务即可2.启动CDHserverservice cloudera-scm-server start...
2021-04-14 22:01:07
270
原创 Flink_CEP关于订单超时事件处理
package comimport java.utilimport org.apache.flink.cep.{PatternSelectFunction, PatternTimeoutFunction}import org.apache.flink.cep.scala.{CEP, PatternStream}import org.apache.flink.cep.scala.pattern.Patternimport org.apache.flink.streaming.api.TimeChar
2021-04-14 20:59:54
803
原创 Flink_CEP关于订单超时事件的处理
//基于CEP 实现对订单事件监测 对于超过一定时间下了订单未支付的用户语义处理package comimport java.utilimport org.apache.flink.cep.{PatternSelectFunction, PatternTimeoutFunction}import org.apache.flink.cep.scala.{CEP, PatternStream}import org.apache.flink.cep.scala.pattern.Patternimpor
2021-04-14 13:41:25
390
原创 Flink_uv统计——使用布隆过滤器
一:UV某一时段内(比如1小时)网站的独立访客数(Unique Visitor.)一天内同一访客的多次访问只记录为一个访客。一般通过用户的IP和cookie判断UV值的两种方式。埋点日志一般包含USERIDpackage com.uvimport java.utilimport org.apache.flink.streaming.api.TimeCharacteristicimport org.apache.flink.streaming.api.scala._import org.apac
2021-04-13 20:05:33
772
原创 Flink_基于状态编程关于连续登录失败的过滤
package com.loginfailimport java.utilimport org.apache.flink.api.common.state.{ListState, ListStateDescriptor, ValueState, ValueStateDescriptor}import org.apache.flink.shaded.netty4.io.netty.handler.codec.http2.Http2Exception.StreamExceptionimport org.
2021-04-09 20:41:57
176
原创 Flink_继承TableAggregateFunction实现topN
Flink中的UDF,UDAF,UDTF,以及多进多出package com.atguigu.sqlfunctionimport com.atguigu.sourceandsink.SensorReadingimport org.apache.flink.streaming.api.TimeCharacteristicimport org.apache.flink.streaming.api.functions.timestamps.BoundedOutOfOrdernessTimestampExt
2021-04-07 21:40:14
335
原创 Flink_基于KeyedProcessFunction的使用案例
package com.atguigu.processfunctionimport java.util.concurrent.TimeUnitimport com.atguigu.sourceandsink.SensorReadingimport org.apache.flink.api.common.restartstrategy.RestartStrategiesimport org.apache.flink.api.common.state.{ValueState, ValueStateDes
2021-04-06 13:15:38
306
原创 Spark_新版本中读取kafka数据
package com.atguigu.sparkstreamingimport org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord}import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, InputDStream, ReceiverInputDStream}import org.apache.spark.s
2021-04-05 13:18:01
228
原创 Spark_RDD实现页面跳转率计算
package com.rdd.topnimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}//城市 idobject PageflowAnalysis2 {def main(args: Array[String]): Unit = {val conf: SparkConf = new SparkConf().setMaster(“local[*]”).setAppName(“HotCat
2021-04-04 20:02:25
256
原创 Spark——实现统计TOP-N的5种方法使用累加器规避shuffle
1========================================================================package com.rdd.topnimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object HotCategoryTop10Analysis {def main(args: Array[String]): Unit = {//TOD
2021-04-03 23:28:05
615
原创 Spark_使用broadcast避免Join出现笛卡尔乘积
package com.atguigu.sparkimport org.apache.spark.broadcast.Broadcastimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import scala.collection.mutableobject TestBroadCast {def main(args: Array[String]): Unit = {//1.使用开发工
2021-04-03 22:36:34
234
原创 Spark_使用累加器实现WordCount避免shuffle
package com.atguigu.sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.util.AccumulatorV2import org.apache.spark.{SparkConf, SparkContext}import scala.collection.mutableobject TestACCWc {def main(args: Array[String]): Unit = {val conf = new
2021-04-03 22:22:39
256
原创 数仓02-hdfs-ods-dwd-
package com.atguigu.udf;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.hive.ql.exec.UDF;import org.json.JSONException;import org.json.JSONObject;import org.stringtemplate.v4.ST;public class BaseFieldUDF extends UDF {public St..
2021-03-17 23:01:07
182
原创 数仓UDF UDTF
package com.atguigu.udtf;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.hive.ql.exec.UDFArgumentException;import org.apache.hadoop.hive.ql.metadata.HiveException;import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;import org.
2021-03-10 23:40:45
144
原创 2021-03-09
Linux常用命令序号 命令 命令解释1 top 查看内存2 df -h 查看磁盘存储情况3 iotop 查看磁盘IO读写(yum install iotop安装)4 iotop -o 直接查看比较高的磁盘读写程序5 netstat -tunlp | grep 端口号 查看端口占用情况6 uptime 查看报告系统运行时长及平均负载7 ps aux 查看进程Shell常用工具awk、sed、cut、sort...
2021-03-09 23:33:59
64
原创 数仓项目
数仓项目搭建选型1.java----1.82.hadoop—2.7.23.hive------1.2.14.Sqoop-----1.4.65.Flume-----1.7.06.Kafka-----0.11.027.Azkaban—2.5.08.Zookeeper—3.4.10服务器选择:1.物理机 4W 128G内存 20核CPU,40线程 8THDD,2TSSD硬盘 5年寿命2.阿里云同等配置 每年5W集群规划 假设每台服务器8T磁盘 128G内存1.每天日活跃用户100万,每
2021-03-08 23:31:58
381
1
原创 Hive_调优
set hive.exec.mode.local.auto=true; //开启本地mrset hive.exec.mode.local.auto.inputbytes.max=50000000;//设置local mr的最大输入文件个数,当输入文件个数小于这个值时采用local mr的方式,默认为4set hive.exec.mode.local.auto.input.files.max=10;1.空KEY过滤测试不过滤空idhive (default)> insert overwri
2021-03-07 21:20:05
72
原创 Hive项目优化测试
一:开启map输出阶段压缩;snappy1.开启hive中间传输数据压缩功能hive (default)>set hive.exec.compress.intermediate=true;2.开启mapreduce中map输出压缩功能hive (default)>set mapreduce.map.output.compress=true;3.设置mapreduce中map输出数据的压缩方式hive (default)>set mapreduce.map.output.comp
2021-03-06 23:15:17
69
原创 Hive_自定义函数
desc function split;desc function extended split;split 可以同时对多个分隔符切割select split(‘zhonagguo-fefei_xiaoming’,’[-_]’);自定义函数 hive中看行 多行进一行 一行进一行(1)UDF(User-Defined-Function)一进一出(2)UDAF(User-Defined Aggregation Function)聚集函数,多进一出类似于:count/max/min(3)UD
2021-03-06 22:45:58
58
原创 Hive——简单总计及习题
Insert导出insert overwrite|into local directory ‘/opt/module/datas/export/student’ select * from student;insert overwrite local directory ‘/opt/module/datas/export/student1’ ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’ select * from student;hive -e ‘sel
2021-03-05 23:39:52
137
原创 Flink——CEP应用
一:Complex Event Processing. CEPpackage com.loginfailimport java.utilimport org.apache.flink.api.common.state.{ListState, ListStateDescriptor}import org.apache.flink.cep.PatternSelectFunctionimport org.apache.flink.cep.scala.{CEP, PatternStream}impo
2021-03-03 23:24:16
161
1
原创 Hive_HQL
一:驱动器:Driver(1)解析器(SQL Parser):将SQL字符串转换成抽象语法树AST,这一步一般都用第三方工具库完成,比如antlr;对AST进行语法分析,比如表是否存在、字段是否存在、SQL语义是否有误。(2)编译器(Physical Plan):将AST编译生成逻辑执行计划MR。(3)优化器(Query Optimizer):对逻辑执行计划进行优化。(4)执行器(Execution):把逻辑执行计划转换成可以运行的物理计划。对于Hive来说,就是MR/Spark。1.数据加载:
2021-03-02 11:30:57
321
原创 Flink_疑点解析+知识巩固
一:1.Spark某些算子有状态2.Flink的状态是默认存在的 RichFunction中创建 内存状根据配置定时时保存为ChickPoint.在HDFS上。3.Flink 优势 EventTime Spark仅支持ProcessTime4.Windonw TimeWindow CountWindow5.内存管理 Flink基于JVM独立内存管理 提前规定内存大小 固定占用6.chickPoint Flink基于快照 Spark基于RDD做CheckPoint二:流式WCpacka
2021-02-27 21:51:50
156
原创 Spark_sql_jdbc_UDAF_
1.从Mysql中读取数据写入到mysql中package com.atguigu.sparksqlimport org.apache.spark.SparkConfimport org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}object SparkReadJDBC {def main(args: Array[String]): Unit = {val conf: SparkConf = new SparkConf().setMa
2021-02-25 22:20:40
110
原创 Flink_算子操作
一:简单转换算子1.map 类型转换 一对一转换 值转换2.flatMap ==scala map之后flat _.split(",")3.Filter() 过滤二:键控流1.keyBy 并不对数据具体处理 只是转换 KeyedStream2.keyBy(“id”) 根据id分组三:滚动聚合算子 对数据一直做滚动计算1.sum2.min min(“temperture”) 取出保留对应字段的最小值 持续更新 *只保留值,并不保留该整个字段。3.max4.minBy
2021-02-25 16:18:20
161
原创 Spark_udf_udaf
def f7(f:(Int,Int)=>Int)={ f(10,20)}println(f7((x:Int,y:Int)=>{x+y}))println(f7((x,y)=>{x+y}))println(f7(_+_))
2021-02-25 13:14:24
101
原创 Spark_rdd_DF_DataSet
1.rdd转换DF<直接指定列命 增加结构名称既可。rdd.toDF(“id”) ===========rdd = df.rdd2.DataSet :强类型。case class Person(name:String,age:Long)val list = List(Person(“zhangsan”,15),Person(“lsii”,15),Person(“wangwu”,15))val ds = list.toDSds.show3.DS转换DFDS 创建时指定样例类 val l
2021-02-24 23:54:16
220
原创 Spark_Top10热门品类中每个品类的Top10活跃Session统计(用户)
1.需求 Top10热门品类中每个品类的Top10活跃Session统计(用户)2.只看点击3.品类要在top10package com.rdd.topnimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object HotCategoryTop10Analysis5 {def main(args: Array[String]): Unit = {//TODO Top10热门品类v
2021-02-23 23:07:08
383
原创 Spark——使用广播变量实现wc
package com.rdd.topnimport org.apache.spark.rdd.RDDimport org.apache.spark.util.AccumulatorV2import org.apache.spark.{SparkConf, SparkContext}import scala.collection.mutable//使用累加器 拒绝shullfeobject HotCategoryTop10Analysis4 {def main(args: Array[Stri
2021-02-23 22:30:59
125
原创 Spark_案例3
package com.rdd.topnimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object HotCategoryTop10Analysis3 {def main(args: Array[String]): Unit = {//TODO Top10热门品类val conf: SparkConf = new SparkConf().setMaster(“local[*]”).s
2021-02-23 21:42:44
84
1
原创 Spark_电商网站数据分析2
package com.rdd.topnimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object HotCategoryTop10Analysis2 {def main(args: Array[String]): Unit = {//TODO Top10热门品类val conf: SparkConf = new SparkConf().setMaster(“local[*]”).s
2021-02-23 21:19:51
182
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人