- 博客(18)
- 收藏
- 关注
原创 kafka自定义producer从mysql获取数据存储至kafka
package test;/** * @Description 细节决定成败 * @Date 2021/5/23 14:45 * @Author liaoxuan **/import kafka.javaapi.producer.Producer;import kafka.producer.KeyedMessage;import kafka.producer.ProducerConfig;import kafka.serializer.StringEncoder;import ut.
2021-05-23 15:48:42
444
原创 flink 处理kafka中日志 json数据
import java.util.Propertiesimport com.alibaba.fastjson.JSONimport com.itheima.realprocess.bean.{ClickLog, Message}import com.itheima.realprocess.task._import com.itheima.realprocess.util.GlobalConfigUtilimport org.apache.flink.api.common.serializati.
2021-04-15 22:51:45
3957
1
原创 flink自定义source 读取mongodb数据
import com.mongodb.BasicDBObjectimport com.mongodb.casbah.Imports.{MongoClient, MongoClientURI, MongoDBObject}import org.apache.flink.configuration.Configurationimport org.apache.flink.streaming.api.functions.source.{RichSourceFunction, SourceFunction}
2021-04-14 22:32:14
1301
1
翻译 flink 处理kafka数据至mongodb
实体:import java.io.Serializable;public class FlinkDao implements Serializable { private String id; private String startMoney; private String startTime; private String endMoney; private String endTime; private String total; .
2021-04-14 22:24:30
871
原创 flink消费kafka json数据
case class Canal(emptyCount: Long, //操作次数 logFileName: String, //binlog文件名 dbName: String, //数据库名 logFileOffset: Long, //binlong偏移量 eventType: String, //操作方式 columnValueL.
2021-04-13 22:18:26
3498
原创 kafka producer consumer工具类
/* 此类用来构建kafka的消费者工具类 */public class KafkaConsumerUtil { public KafkaConsumer<String, String> createConsumer() { //String topicName = "rjht01"; String groupID = "consumer02"; Properties prop = new Properties.
2021-04-13 21:58:28
757
原创 flink waterMarkDemo
/* 水印,专门用来解决网络延迟问题 */object WaterMarkDemo { //3.构建一个样例类,用来封装订单数据 case class Order(orderID:String ,UserID:Int,money:Long,timestamp:Long) def main(args: Array[String]): Unit = { //1.构建flink的流处理运行环境 val env = StreamExecutionEnvironment.
2021-04-13 21:49:49
215
原创 Flink batch SQL demo
object BatchSQLDemo2 { case class Order(UserID:Int,name:String,time:String,money:Double) def main(args: Array[String]): Unit = { //1.创建flink的批处理运行环境 val env = ExecutionEnvironment.getExecutionEnvironment //2.创建table的运行环境 val tableEnv =.
2021-04-13 21:48:37
453
原创 FlinkSqlDemo
object StreamSQLDemo1 { case class Order(orderId:String,UserID:Int,money:Long,timestamp:Long) def main(args: Array[String]): Unit = { //1.构建flink的流处理运行环境 val env = StreamExecutionEnvironment.getExecutionEnvironment //2.构建table的运行环境 env.
2021-04-13 21:47:27
484
原创 hive函数大全
一、关系运算:1. 等值比较: =语法:A=B操作类型:所有基本类型描述: 如果表达式A 与表达式B相等,则为 TRUE;否则为 FALSE举例:hive> select 1 from lxw_dual where 1=1;12. 不等值比较: <>语法: A <> B操作类型: 所有基本类型描述: 如果表达式 A 为 NULL,或者表达式 B为 NULL,返回 NU...
2018-07-06 19:57:03
6891
原创 hiveSql优化
1.对查询进行优化,要尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:select id from t where num is null最好不要给数据库留NULL,尽可能的使用 NOT NULL填充数据库.备注、描述、评论之类的可以设置为 NULL...
2018-07-06 19:53:40
759
原创 hadoop集群安装部署
1.准备Linux环境1.0 配置好各虚拟机的网络(采用NAT联网模式)第一种:通过Linux图形界面进行修改(桌面版本Centos)进入Linux图形界面 -> 右键点击右上方的两个小电脑->点击Edit connections-> 选中当前网络System eth0 ->点击edit按钮->选择IPv4 -> method选择为manual -> 点击...
2018-04-25 16:22:19
194
原创 shell脚本与定时任务
简单shell脚本#!/bin/bashexport JAVA_HOME=/usrexport PATH=$PATH:$JAVA_HOME/binstart=`date -d yesterday +%Y-%m-%d`#date -d yesterday +%Y-%m-%dend=`date +%Y-%m-%d`while [ "${start}" != "${end}" ]do echo $st...
2018-04-25 16:18:31
1909
原创 linux下安装JDK
Linux下安装jdk一、查询linux是否安装有JDK这个口令是查询JDK版本:java –version 这个口令是查询是否安装有JDK:rpm -qa | grep java二、如果查询安装有JDK,那就将其删除rpm -e –nodeps java-1.7.0-openjdk-1.7.0.45-2.4.3.3.el6.x86_64 rpm -e –nodeps java-1.6.0-op
2017-11-26 16:50:25
596
原创 搭建一个 zookeeper集群
1.集群的简介: 1.1什么是集群1.1.1集群概念 集群是一种计算机系统, 它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作。在某种意义上,他们可以被看作是一台计算机。集群系统中的单个计算机通常称为节点,通常通过局域网连接,但也有其它的可能连接方式。集群计算机通常用来改进单个计算机的计算速度和/或可靠性。一般情况下集群计算机比单个计算机,比如工作站或超级计算机性能
2017-11-25 11:20:20
519
原创 爬虫实战爬取数据
1、需求分析爬取首页的数据爬取分页的数据创建数据库,保存数据2、创建项目 <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId> <version>4.5.3</version
2017-11-14 20:39:05
1285
翻译 HTML基础知识
什么是 HTML? HTML 指的是超文本标记语言 (Hyper Text Markup Language),“超文本”就是指页面内可以包含图片、链接,甚至音乐、程序等非文字元素。超文本标记语言的结构包括“头”部分(英语:Head)、和“主体”部分(英语:Body),其中“头”部提供关于网页的信息,“主体”部分提供网页的具体内容。HTML的构成 head 元素是所有头部元素的容器。 内的元素
2017-11-14 20:35:57
190
原创 简单爬虫知识
爬虫是什么 爬虫又叫网络爬虫,是一种运行在互联网上为了获取数据的自动化程序。互联网上有哪些数据值得爬取? 公司内部数据业务数据,公司使用BI(Business Intelligence)、CRM系统、ERP系统、邮件系统等产生的数据;财务数据,其中包括公司的支出、采购、收入等多项与公司日常运作有关的数据;用户数据,无论是网站、APP还是游戏,用户注册都会填写邮箱、电话、身份证号码等数据,这
2017-11-14 20:34:16
661
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人