小nove-优快云博客

原创 Django启动流程01-wsgi

wsgi 给python的web开发提供了规范和方便基于wsgi协议可以高效，规范的进行web服务的开发下期内容自定义多个路由匹配不同的方法，响应页面内容。

2024-11-11 22:03:42 1072

说明要输出规范的时间窗口数据，00：00—02：00、02：00-04：00package flink;import bi.MainFunc;import bi.bean.SolomeBean;import com.alibaba.fastjson.JSON;import org.apache.flink.api.common.ExecutionConfig;import org.apache.flink.api.common.eventtime.WatermarkStrategy;imp

2021-07-27 11:38:28 230

原创大数据质量

大数据质量文章概述1.大数据质量的目的2.大数据质量涉及问题3.大数据质量管理实现的技术1.大数据质量的目的在了解数据质量目的之前，我们先看一下数据质量的概念数据质量是指在业务环境下，数据符合消费者的使用目的，能满足业务场景的具体需求的程度具体应用中，也就是数据消费者对数据质量的需求不一定相同，一些人关注准确性和一致性，一些人关注实时性和相关性，我们监控数据质量的目的就是满足数据消费者的各种需求，下面列出来一些通用性的规则，使我们对数据质量的概念不再这么抽象表1-1，数据质量的规则实例质

2021-04-10 18:55:15 969

原创元数据

元数据文章概述1.搞清楚什么是元数据2.元数据的构建3.元数据的作用4.元数据的实战1.搞清楚什么是元数据百度元数据，结果估计是，不包含数据的数据。比较抽象我们在使用hive的时候，经常把元数据配置在mydql中，打开来看它存储的是表的信息，数据的存储信息。此时可以理解为元数据服务于我们要使用的数据然后我们来看一张图，此时，对元数据应该有更全面的认识先引入几个新的概念1.实体：概念明确的客观实体或者抽象实体2.属性：构成实体的参数3.域：某一数据类型，限定了数据值的类型元数据服

2021-04-10 18:54:31 785

原创无限下级查询

SELECT tba.leve,dt2.*FROM (SELECT @l := @l + 1 as leve,@id as _ids,(SELECT @id := group_concat(id) from degree_tk where FIND_IN_SET(parent_id,@id)) as cidsFROM (select @id :='1',@l := 0) b,degree_tk dt) tba,degree_tk dt2#单引号的值为目标idWHERE FIND_IN_

2021-03-17 15:01:04 202

原创注解类的定义和使用

定义注解类import java.lang.annotation.ElementType;import java.lang.annotation.Retention;import java.lang.annotation.RetentionPolicy;import java.lang.annotation.Target;@Target({ElementType.FIELD,ElementType.METHOD})//作用目标，字段,方法@Retention(RetentionPolicy.R

2021-01-21 16:32:32 398

原创 flink的key-state

同key的进行状态计算，比较两者的区别package com.uu.stateimport java.util.Dateimport com.uu.two.Hummanimport com.uu.two.utils.DateTransimport org.apache.flink.api.common.functions.RichFlatMapFunctionimport org.apache.flink.api.common.state.{ValueState, ValueStateDes

2020-10-28 11:17:15 307

原创 flink侧流输出

测流输出的方法建立多个分支定义流的标签传入处理器函数中判断参数，进行分流package com.uu.twoimport java.sqlimport java.sql.DriverManagerimport com.uu.two.utils.DateTransimport org.apache.flink.api.common.functions.{MapFunction, RichMapFunction}import org.apache.flink.api.common.st.

2020-10-27 19:35:11 1111

原创 flink的三种函数定义

普通函数类指定了输入类型与返回类型，功能同map算子相似富函数类涉及到了资源相关，例如连接数据库与关闭数据库等操作写在代码中代码中在建立连接的时候输出了一句话，执行程序可以看到，打印该话只执行了一次底层处理函数api添加了时间语义，触发器概念，灵活使用触发器，实现时间间隔内的各种操作package com.uu.twoimport java.sqlimport java.sql.DriverManagerimport com.uu.two.utils.DateTransimpo.

2020-10-27 17:09:23 580

原创 mapPartitions使用自定义的迭代器类

自定义迭代器类实现分区调用函数每一个元素的值乘以3再输出常用的方法是在方法中定义一个集合对象，容易出现内存不足的情况使用自定义的迭代器类可以避免这种情况的出现 //自定义迭代器类 class CustomIterator(iter: Iterator[Int]) extends Iterator[Int] { def hasNext: Boolean = { iter.hasNext } def next: Int = {

2020-10-19 10:57:09 397

原创 scala统计一句话中的文字个数

package com.uu.oneimport scala.collection.mutable.ListBufferimport scala.util.control.Breaksobject Demo1 { def main(args: Array[String]): Unit = { val sentence = "一首现代诗《笑里藏刀》:哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈刀哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈" val map = scala.collection.mu

2020-10-14 09:19:59 283

原创元数据

元数据概念除了数据本身外的数据例如:电影称为数据，则电影简介，演员表等就是元数据元数据的应用数据仓库中记录模型定义，各个层级的映射关系帮助开发者快速的找到数据技术元数据表，字段，分区的信息文件大小，权限等运行元数据记录作业信息，工作体日志等任务监控，运维，数据质量等...

2020-09-21 19:48:07 114

原创 spring学习感悟

控制反转将对象建立的控制权交给框架具体通过配置文件来实现beanFacory工厂来获取配置文件中的baen对象可通过具体的类或者bean的名字来获取对象依赖注入由类名与属性名字，属性值来给类的属性赋值aop功能的增强切点切面的概念可以给一个点配置多个面来增强可以给一个面指定多个点集合事务的使用，功能强大...

2020-07-31 19:23:16 257

原创配置方式配置事务

配置文件配置了事务管理器配置了切点（dao层的对应的方法)配置了切面（事务的传播行为，隔离级别)  <context:property-placeholder location="db.properties"></context:property-placeholder>  <bean id="dataSource" class="com.a

2020-07-28 15:39:34 148

原创 Dao层进行事务的添加，实现异常回滚

dao层代码，实现回滚事务提交前扔出来了一个异常，运行结果，数据库中没有插入值package com.uu.translation.dao;import org.springframework.beans.factory.annotation.Autowired;import org.springframework.jdbc.core.JdbcTemplate;import org.springframework.jdbc.datasource.DataSourceTransactionMana

2020-07-28 14:47:00 954

原创基于注解实现ioc

基于注解实现ioc配置文件开启注解扫描 <context:component-scan base-package="com.uu.translation"/>dao层@Repositorypublic class UserDao { public void insert(){ System.out.println("插入成功"); }}service层，注入了dao层的对象@Servicepublic class UserImp im

2020-07-28 14:24:25 246 1

原创 echarts

特点1.数据的拆分与合并2.对某个范围取值的展示3.去处畸形数据，查看效果4.简单的实现多图联动5.配合时间轴使用6.支持百万级的数据展示小工具百度图说简单的修改类excle文档就可以生成统计图https://tushuo.baidu.com/wave/index#/gallery...

2020-05-01 18:48:29 162

原创 saprk连通图

一个简单的联通图好友推荐尝试联通图算法package graphximport org.apache.spark.graphx.{Edge, Graph, VertexId, VertexRDD}import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * Create...

2020-04-28 14:58:46 282

原创软件测试——第二天

软件测试的阶段划分单元测试：一个单元或者模块集成测试：模块间的连接系统测试：配合需求规则说明书验收测试：整个系统的测试软件测试的工作流程需求分析测试计划测试案例及步骤执行测试总结报告名词解释开发环境：编写，调试代码的环境。测试环境：使用假的身份测试准线上坏境：使用真的身份测试线上环境：真实数据内测版：是否有非公司人员确定线上还是准线上基线测试：单一用户完...

2020-04-27 21:55:13 199

原创 {"status":211,"message":"APP SN校验失败"}我的问题

描述注册成为开发者后，使用sn的方式来进行校验，官网给出了计算的方发，将计算出来的sn拼接后发现校验失败，本地的sn与云端的sn不一致。问题使用经纬度获取位置坐标，还需要计算location。在给定的代码里将paramsStr也要进行拼接。测试修改代码，将location与sn都进行输出package test;import java.io.UnsupportedEncoding...

2020-04-27 09:45:42 2648 1

原创软件测试——第一天

软件的生命周期提出需求——合理性分析——开发——调试——验收——维护——废弃软件开发模型分类瀑布模型，快速原型模型，螺旋模型瀑布模型分七步需求分析设计编码实现测试运行维护优点：阶段清晰，顺序执行步骤缺点隐患后移，无法边分析边开发快速原型模型前期先进行一个原型的设计，围绕模型来进行开发优点弥补了瀑布模型的缺陷。缺点灵活性差，围绕既定的模型开发，...

2020-04-26 20:52:10 175

原创 spark写入mysql

spakr中df的内容写入mysqlrdd或其他内容转化为df配置数据库的属性调用df的写入方法 //ds转化为df val frame = sprak.createDataFrame(value) val prop =new Properties() prop.setProperty("user","root") prop.setProperty...

2020-04-23 11:01:31 269

原创 SQL字符切割

mysqlsql：从第二个字符开始的，长度为2的串SELECT SUBSTR("12345",2,2)sql：从第二个字符开始的，长度为3的串

2020-04-20 11:21:39 607

原创 idea的批量项目导入__tmp

用图片的形式来表示打开项目目录，选中pom文件，点击递归查询主类

2020-03-11 22:50:28 529

原创 kafka实践-分区器-拦截器-消费者-生产者-kafakStream

模拟消费者组三台机器中选择两台设置相同的消费者组设置相同的组id给两台机器group.id=nove开启一个生产者bin/kafka-console-producer.sh \--broker-list hadoop101:9092 --topic second指定配置文件开启两个消费者bin/kafka-console-consumer.sh --bootstra...

2020-03-10 20:22:42 388

原创 zookeeper的api操作

导入依赖<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</vers...

2020-03-09 20:16:01 104

原创 watermark学习

基本概念在数据流中，由于网络，分布式的原因，会出现数据处理时间误差。结合windows的概念，原定5s进行一次数据的处理设置watermark的值为2，则直到时间戳为7s，12s的数据出现，整体数据进行向下的传递。可以视为一个延迟机制，直到指定的值出现，才进行事件的触发。案例实现定义一个watermark为2s的规则来处理流数据package watermarkimport or...

2020-03-06 22:02:36 317

原创 Spark的广播变量

将一些较大的数据集进行广播，不需要每个task都复制一分数据 //将一个数据进行了广播 val value = sc.broadcast(Array(6,7,8,9)) //具体的使用 unit.foreach(x=> { accumulator1.add(x) //在分片的rdd中直接使用被广播了的值 val value1: Arra...

2020-02-27 15:35:01 111

原创 Spark的累加器

Sparkb自身的累加器 val conf = new SparkConf().setAppName("jk").setMaster("local") val sc = new SparkContext(conf) val accumulator = sc.longAccumulator //传入array集合，指定两个分片 val unit = sc.ma...

2020-02-27 15:10:34 131

原创 spark自定义udf函数与自定义聚合函数

udf函数表现为对传入的数据进行处理后输出//创建session对象val conf = new SparkConf().setMaster("local").setAppName("jjk")val session = SparkSession.builder().config(conf).getOrCreate()//导入隐式转换import session.implicits....

2020-02-26 19:20:44 383 1

原创 ...

Day 06Hive基本数据类型hive官网[http://image.baidu.com/search/detail?ct=503316480&z=undefined&tn=baiduimagedetail&ipn=d&word=bilbi&step_word=&ie=utf-8&in=&cl=2&lm=-1&...

2020-02-05 09:41:17 103

原创使用属性占位符的方式来对spring的配置文件进行赋值

spring的配置文件application.xml引入了context的命名空间此处使用了druid的连接池。<?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.o...

2020-02-02 12:35:26 247

原创 es学习

安装在官网中按照步骤安状：https://www.elastic.co/guide/en/elasticsearch/reference/6.0/_installation.html开启存在开启问题：结合博客：主要是向外暴露ui界面的问题与线程数，最大虚拟内存数问题https://blog.youkuaiyun.com/weixin_39800144/article/details/81162002...

2020-01-08 18:55:17 132

原创 java的jdbc，连接池的工具类，druid连接池的使用

配置文件jdbc.username=rootjdbc.password=123jdbc.driver=com.mysql.jdbc.Driverjdbc.url=jdbc:mysql://localhost:3306/bigdatajava的jdbc工具类从配置文件中获取连接，返回连接对象package jdbcutiis.jdbcutilsAndTest;import ja...

2019-12-30 14:58:04 579

原创 java读取配置文件的方法

不需要三方依赖直接读取等号两边的内容代码 InputStream isp = this.getClass().getClassLoader().getResourceAsStream("application.properties"); Properties properties = new Properties(); try { pr...

2019-12-29 20:34:02 104

原创 hive的调优

1.数据压缩gzip：压缩比与速度都中等，不可切片bzip：压缩比最大，可切片lozy：中等，可切片snappy：压缩速度快，可切片常用大数据一般选用snappy形式的压缩。2.数据存储格式1.默认行存储。gzip存储不可切片。2.列存储，可切片，可以不从文件的开始读取数据，加快了查询的速速3.RCfile：结合行列的优点。进行了压缩存储又加快了查询的速度4.ORfile：R...

2019-11-23 15:57:29 151

原创读取kafka数据的偏移量的维护

使用spark来获取kafka的数据要建立一个连接对象来获取数据——对象的建立需要传入偏移量参数偏移量的初始值：多个分区需要有多行数据。partition从0开始排，逐个增加。 //kafka的连接参数 val kafkaParams = Map[String, Object]( "bootstrap.servers" -> "hadoop101:9092,ha...

2019-11-19 21:03:58 696

原创 scala将数据写入Redis

依赖 <dependency> <groupId>redis.clients</groupId> <artifactId>jedis</artifactId> <version>2.9.0</version> </de...

2019-11-18 23:37:51 2931 1

原创 SparkStream消费Kafka的数据

依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <version>2.2.0</version&g...

2019-11-18 23:14:37 416

原创 scala like jdbc的使用

除查询外其他的语法类似，支持事务的控制package scalikejdbcimport scalikejdbc.config.DBs//测试scalikejdbc的使用object scalaJdbcDemo { def main(args: Array[String]): Unit = { //插入数据 //加载配置文件中的jdbc,要求表是存在的 D...

2019-11-16 17:28:18 280

空空如也

空空如也