- 博客(151)
- 收藏
- 关注
原创 费曼学习法
费曼学习方法生活比喻(生活启发)费曼小时候 ,费曼的父亲喜欢跟他讲大英百科全书,小费曼问父亲恐龙有多大啊?在百科全书中只有简单的几行文字描述的信息,上面写道 :身高大约25英尺,头有6英尺宽父亲对小费曼说,恐龙它站起来的话可以看到我们家二楼的物品,但是它无法穿过我们家的窗户父亲通过它自己的对知识的理解联系生活向费曼解释到,父亲通过这种方法既加深了自己对知识的理解,也向费曼清楚的解释了这个概念!通过上面这个案例我们可以用来检验自己是否真的有理解自己学习的知识,如果我们只是上课的时候听讲某方面的知识
2020-12-08 20:52:08
341
原创 厦门市租房情况分析App02项目
App02项目需求分析架构选型开发环境及需要的其他的插件数据来源数据存储数据处理 (项目重点)数据格式问题数据可视化项目代码地址:[github](https://github.com/dssit/App02)项目成员需求分析1:爬取厦门市租房网的信息2 : 对厦门市各个区的租房的价格进行分析3:通过数据的可视化,来让别人清楚了解厦门市各个区的租房价格的水平架构选型开发环境及需要的其他的插件数据来源网页url:http://fangzi.xmfish.com/web/search_hir
2020-10-15 10:56:59
1629
4
原创 Flink Runtime 杂记
Apache Flink的Runtime核心机制剖析Flink是可以运行在多种环境下的(yarn,k8s,云环境,),它可以单进程和多线程方式启动,便于我们调式代码Flink Runtime 整体架构针对不同的执行环境,Flink提供了统一的分布式作业引擎,就是Flink Runtime这层,Flink在Runtime上提供了DataSetAPI(Gelly,Table,FlinkML) 和 DataStreamAPI(CEP,Table)整体来说是采用master-slave架构master
2020-08-05 11:10:55
332
原创 flink杂记
Flink CEP复杂事件处理FLKINK复杂事件处理CEP ,基于流处理技术将系统数据看做不同事件,寻找不同事件的相互关系,来列出关系序列库,并利用过滤和关联和聚合等技术,最终由简单的事件产生复杂事件,使用模式规则来对重要数据进行追踪和分析, 从实时数据中挖掘隐藏的数据信息。复杂事件的用途:反欺诈,网络欺诈,设备故障检测Flink基于DataStream Api 来做 FlinkCEP组件栈在idea项目中导入maven配置org.apache.flinkflink-cep-scala_
2020-07-31 21:23:12
519
2
原创 杂记
数据中台主要的组成部分1: 数据仓库2: BI( 商务智能-数据可视化)3: 前后端4: 元数据管理Flink1:datasourcehdfskafkaCollection自定义 2:sink hdfs_sink kafka_sink(String,key_value) redis_sink 自定义 flink中没有 算子的划分都是transformation算子。 3:transformations addSource keyBy[DataS
2020-07-28 13:59:44
363
原创 Flink DataStream API Transformations算子应用
flink中没有 算子的划分都是transformation算子。3:transformationsaddSource keyBy[DataStream —>keyedStream]用key对数据进行重新分区reduce[keyedStream —>DataStream]只接受keyedStream类型的数据,对相同的key进行数据的独立计算Aggregationsp[keyedStream —>DataStream] 有sum算子,min,max, minBy ,maxB.
2020-07-18 14:29:34
201
原创 flume面试题(更新中。。。)
1:用什么工具监控flume数据收集Ganglia 实时监控 Flume2:flume的source,sink ,channel 的 作用,支持的数据类型source 数据源头 自定义,以处理各种类型、各种格式的日志数据,包括 avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacychannel 数据通道(缓存数据) memory,filesink 数据输出 自定义,h
2020-07-12 19:21:44
285
1
原创 docker从入门到成魔(七)
使用 Docker Compose 部署应用Docker Compose 的背景Docker Compose 内部实现在 Linux 上安装 Docker ComposeCompose 文件使用 Docker Compose 部署应用使用 Docker Compose 管理应用总结Docker Compose 的背景现在的应用都是由众多不同的小服务组成的,为解决部署和管理多个服务问题困难,才出现了Docker ComposeDocker Compose 他不是一串很长的docker命令来将应用组合起来
2020-07-12 14:49:17
278
原创 spark sql从入门到成魔(一)
Spark SQL入门spark sql 基本原理sparksql 概述与架构sparksql执行流程sparksql 相对于 hive 和 MapReduce 作业的优点sparksql基本操作命令DataFrame 和Dataset 两种的使用ActionDataFrame 基础函数DataSet集成语言查询RDD转DataFrame的方式spark sql 基本原理sparksql 概述与架构sparksql是spark在处理结构化数据的解决方法方案。sparksql是一个分布式的sql查询
2020-07-12 13:08:20
361
原创 Docker从入门到成魔(六)
应用容器化容器化应用简介单体应用容器化获取应用代码分析 Dockerfile构建镜像推送镜像到仓库运行应用程序APP 测试生产环境中的多阶段构建利用构建缓存总结容器化应用简介单体应用容器化获取应用代码 git clone https://github.com/nigelpoulton/psweb分析 Dockerfile构建镜像推送镜像到仓库运行应用程序docker container run -d --name c1 -p 8000:808
2020-07-11 14:16:38
205
原创 docker从入门到成魔(五)
Docker容器Docker 容器简介Docker 容器详解容器 vs 虚拟机虚拟机的额外开销Docker deamon检查 Docker daemon容器进程与生命周期重启容器与自我修复查看容器详情总结ubuntuservice docker restartDocker 容器简介进到容器里面,sleep 4s后退出容器。Docker 容器详解容器 vs 虚拟机虚拟机的额外开销Docker deamon检查 Docker daemon容器进程与生命周期
2020-07-10 19:58:47
287
原创 docker入门到成魔(四)
Docker 镜像Docker 镜像简介镜像和容器镜像通常比较小拉取镜像镜像仓库服务镜像命名和标签为镜像打多个标签过滤 docker image ls 的输出内容通过 CLI 方式搜索 Docker Hub镜像分层与共享
Docker引擎docker引擎简介Docker 引擎详解摆脱LXC重构Docker daemonrunc和containerd启动一个新的容器(示例)shimdaemon总结docker引擎简介Docker 引擎详解摆脱LXC重构Docker daemonrunc和containerd启动一个新的容器(示例)shimdaemon总结...
2020-07-09 15:43:55
353
原创 docker入门到成神(二)
Docker安装与技术概览Docker安装Docker安装Docker引擎升级Docker存储驱动选项镜像容器Docker安装Docker引擎升级
docker技术产生的背景: vm的出现vm的弊端突出容器技术的出现docker技术的出现简化了容器的复杂度(linux容器)window容器linux容器与window容器mac容器容器生态总结
2020-07-08 21:34:45
187
原创 javaLambda表达入门(一)
java8有新的特点就是lambda表达式,它是吸收了scala函数式编程的思想的java的lambda:其实是简化了实现匿名函数的过程。引进lambda表达式后,我们发现它大大的简化java实现匿名函数的代码量。 如下的代码所示:package cn.dss.lambda;public class Program { public static void main(String[] args) { MyCompartor myCompartor = new MyComparto
2020-06-14 07:44:19
200
原创 flume
1.flume是分布式的日志收集系统,把收集来的数据传送到目的地去。2.flume里面有个核心概念,叫做agent。agent是一个java进程,运行在日志收集节点。3.agent里面包含3个核心组件:source、channel、sink。3.1 source组件是专用于收集日志的,可以处理各种类型各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy、自定义。
2020-06-11 23:12:36
136
原创 apache-pig
1.Pig是基于hadoop的一个数据处理的框架。MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行。2.Pig的数据处理语言是数据流方式的,类似于初中做的数学题。3.Pig基本数据类型:int、long、float、double、chararry、bytearray复合数据类型:Map、Tuple、BagBag的类型如{(‘age’,31),(‘name’,‘张三’)}4.如何安装Pig·4.1 把pig-0.11.1.tar.
2020-06-11 23:05:11
307
原创 在同一台的服务器中启多个tomcat时要注意的问题
我在搭建两个的tomcat的时候,要修改conf/server.xml的配置修改了以上的配置 , 但是在访问第二tomcat服务的时候,启动 没有出现任何的报错信息。访问报错,在浏览器的窗口处出现了tomcat的图标是灰色的。 日志没有报错进程都起来了,查了一下是service name 同名了 。所以访问不了。修改一下的server.xml 的service name,就可以访问了。...
2020-06-10 10:43:10
271
原创 win10下安装django
cmd > pip install django配置环境变量:把django的位置加入到环境变量中重启进入python中import如django执行代码: django.getcmd>django.get_version() 创建django项目:cmd> django-admin startproject djangoDemo (项目名称)查看项目的结构:cmd>tree djangoDemo /F cmd> cd djangoDemo启动
2020-06-04 08:47:00
752
原创 springioc入门(一)
1:创建maven项目2:打开创建好了的项目在pom.xml中添加spring的依赖 <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.10</version> </dependency> <dependency> <
2020-06-03 15:17:18
152
原创 大数据DataX离线数据同步工具
DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、SQL Server、 Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功 能。 DataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及 向目标端写入数据的Writer插件,理论上DataX框架可以支持任意数据源类型的数据同步工作。同时 DataX插件体系作为一套生态系统, 每接.
2020-06-03 13:55:59
882
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人