博学天下-优快云博客

原创 kafka自定义producer从mysql获取数据存储至kafka

package test;/** * @Description 细节决定成败 * @Date 2021/5/23 14:45 * @Author liaoxuan **/import kafka.javaapi.producer.Producer;import kafka.producer.KeyedMessage;import kafka.producer.ProducerConfig;import kafka.serializer.StringEncoder;import ut.

2021-05-23 15:48:42 488

原创 flink 处理kafka中日志 json数据

import java.util.Propertiesimport com.alibaba.fastjson.JSONimport com.itheima.realprocess.bean.{ClickLog, Message}import com.itheima.realprocess.task._import com.itheima.realprocess.util.GlobalConfigUtilimport org.apache.flink.api.common.serializati.

2021-04-15 22:51:45 4097 1

原创 flink自定义source 读取mongodb数据

import com.mongodb.BasicDBObjectimport com.mongodb.casbah.Imports.{MongoClient, MongoClientURI, MongoDBObject}import org.apache.flink.configuration.Configurationimport org.apache.flink.streaming.api.functions.source.{RichSourceFunction, SourceFunction}

2021-04-14 22:32:14 1378 1

翻译 flink 处理kafka数据至mongodb

实体：import java.io.Serializable;public class FlinkDao implements Serializable { private String id; private String startMoney; private String startTime; private String endMoney; private String endTime; private String total; .

2021-04-14 22:24:30 910

原创 flink消费kafka json数据

case class Canal(emptyCount: Long, //操作次数 logFileName: String, //binlog文件名 dbName: String, //数据库名 logFileOffset: Long, //binlong偏移量 eventType: String, //操作方式 columnValueL.

2021-04-13 22:18:26 3602

原创 kafka producer consumer工具类

/* 此类用来构建kafka的消费者工具类 */public class KafkaConsumerUtil { public KafkaConsumer<String, String> createConsumer() { //String topicName = "rjht01"; String groupID = "consumer02"; Properties prop = new Properties.

2021-04-13 21:58:28 840

原创 flink waterMarkDemo

/* 水印，专门用来解决网络延迟问题 */object WaterMarkDemo { //3.构建一个样例类，用来封装订单数据 case class Order(orderID:String ,UserID:Int,money:Long,timestamp:Long) def main(args: Array[String]): Unit = { //1.构建flink的流处理运行环境 val env = StreamExecutionEnvironment.

2021-04-13 21:49:49 247

原创 Flink batch SQL demo

object BatchSQLDemo2 { case class Order(UserID:Int,name:String,time:String,money:Double) def main(args: Array[String]): Unit = { //1.创建flink的批处理运行环境 val env = ExecutionEnvironment.getExecutionEnvironment //2.创建table的运行环境 val tableEnv =.

2021-04-13 21:48:37 555

原创 FlinkSqlDemo

object StreamSQLDemo1 { case class Order(orderId:String,UserID:Int,money:Long,timestamp:Long) def main(args: Array[String]): Unit = { //1.构建flink的流处理运行环境 val env = StreamExecutionEnvironment.getExecutionEnvironment //2.构建table的运行环境 env.

2021-04-13 21:47:27 535

原创 hive函数大全

一、关系运算：1. 等值比较: =语法：A=B操作类型：所有基本类型描述: 如果表达式A 与表达式B相等，则为 TRUE；否则为 FALSE举例：hive> select 1 from lxw_dual where 1=1;12. 不等值比较: <>语法: A <> B操作类型: 所有基本类型描述: 如果表达式 A 为 NULL，或者表达式 B为 NULL，返回 NU...

2018-07-06 19:57:03 6967

原创 hiveSql优化

1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。2.应尽量避免在 where 子句中对字段进行 null 值判断，否则将导致引擎放弃使用索引而进行全表扫描，如：select id from t where num is null最好不要给数据库留NULL，尽可能的使用 NOT NULL填充数据库.备注、描述、评论之类的可以设置为 NULL...

2018-07-06 19:53:40 886

原创 hadoop集群安装部署

1.准备Linux环境1.0 配置好各虚拟机的网络（采用NAT联网模式）第一种：通过Linux图形界面进行修改(桌面版本Centos)进入Linux图形界面 -> 右键点击右上方的两个小电脑->点击Edit connections-> 选中当前网络System eth0 ->点击edit按钮->选择IPv4 -> method选择为manual -> 点击...

2018-04-25 16:22:19 222

原创 shell脚本与定时任务

简单shell脚本#!/bin/bashexport JAVA_HOME=/usrexport PATH=$PATH:$JAVA_HOME/binstart=`date -d yesterday +%Y-%m-%d`#date -d yesterday +%Y-%m-%dend=`date +%Y-%m-%d`while [ "${start}" != "${end}" ]do echo $st...

2018-04-25 16:18:31 1945

原创 linux下安装JDK

Linux下安装jdk一、查询linux是否安装有JDK这个口令是查询JDK版本:java –version 这个口令是查询是否安装有JDK:rpm -qa | grep java二、如果查询安装有JDK，那就将其删除rpm -e –nodeps java-1.7.0-openjdk-1.7.0.45-2.4.3.3.el6.x86_64 rpm -e –nodeps java-1.6.0-op

2017-11-26 16:50:25 643

原创搭建一个 zookeeper集群

1.集群的简介： 1.1什么是集群1.1.1集群概念集群是一种计算机系统，它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作。在某种意义上，他们可以被看作是一台计算机。集群系统中的单个计算机通常称为节点，通常通过局域网连接，但也有其它的可能连接方式。集群计算机通常用来改进单个计算机的计算速度和/或可靠性。一般情况下集群计算机比单个计算机，比如工作站或超级计算机性能

2017-11-25 11:20:20 550

原创爬虫实战爬取数据

1、需求分析爬取首页的数据爬取分页的数据创建数据库，保存数据2、创建项目 <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId> <version>4.5.3</version

2017-11-14 20:39:05 1323

翻译 HTML基础知识

什么是 HTML？ HTML 指的是超文本标记语言 (Hyper Text Markup Language)，“超文本”就是指页面内可以包含图片、链接，甚至音乐、程序等非文字元素。超文本标记语言的结构包括“头”部分（英语：Head）、和“主体”部分（英语：Body），其中“头”部提供关于网页的信息，“主体”部分提供网页的具体内容。HTML的构成 head 元素是所有头部元素的容器。内的元素

2017-11-14 20:35:57 216

原创简单爬虫知识

爬虫是什么爬虫又叫网络爬虫，是一种运行在互联网上为了获取数据的自动化程序。互联网上有哪些数据值得爬取？公司内部数据业务数据，公司使用BI（Business Intelligence）、CRM系统、ERP系统、邮件系统等产生的数据；财务数据，其中包括公司的支出、采购、收入等多项与公司日常运作有关的数据；用户数据，无论是网站、APP还是游戏，用户注册都会填写邮箱、电话、身份证号码等数据，这

2017-11-14 20:34:16 748

weixin_40706727的博客