- 博客(62)
- 资源 (1)
- 收藏
- 关注
原创 第一章 Python概述与开发环境安装
第一章 Python概述与开发环境安装1、Python开发环境安装2、Anaconda安装选择 just me 不用勾选添加本地环境变量查看Anaconda环境是否安装成功(查看Anaconda版本号):conda --version查看目前安装了哪些环境变量:conda info --envs查看 Anaconda 当前版本以及安装了哪些包:conda list3、Spyder3.1 读取文件里面的行数import sys import os.path# 文件目录dir =
2020-10-02 17:21:54
640
1
原创 Flink练习
Flink练习一、Flink开发IDEA环境搭建与测试1、IDEA开发环境先虚拟机联网,然后执行yum -y install nc nc是用来打开端口的工具 然后nc -l 9000 1.pom文件设置<properties> <maven.compiler.source>1.8</maven.compiler.source> ...
2019-06-01 18:48:11
581
原创 Flink基础
Flink基础一、Flink概述官网:http://flink.apache.org/ mapreduce->maxcumpute hbase->部门 quickBI DataV Hive->高德地图 storm->Jstorm … 2019年1月 阿里正式开源flink->blink Apache Flink是一个框架和分布式处理引擎,用于对无...
2019-06-01 18:47:31
957
原创 Storm练习
Storm练习一、需求需求:统计网站访问量(实时统计)技术选型:特点(数据量大、做计算、实时)实时计算框架:storm 1)spout 数据源,接入数据 本地文件2)bolt 业务逻辑处理 切分数据 查到网址3)bolt 累加次数求和二、代码编写PvCountSpout.javapackage com.hsiehch...
2019-06-01 18:46:30
354
原创 Storm集群和集成
Storm集群和集成一、Storm集群任务提交流程二、Storm内部通信机制三、集成Storm1、与JDBC集成将Storm Bolt处理的结果插入MySQL数据库中需要依赖的jar包 $STORM_HOME\external\sql\storm-sql-core*.jar $STORM_HOME\external\storm-jdbc\storm-jdbc-...
2019-06-01 18:45:40
237
原创 Storm基础
Storm基础流式计算专题 批量计算、实时计算、离线计算、流式计算共同点: 数据源 –> 采集数据 –> task worker –> task worker –> sink 输出批量计算和流式计算 区别: 处理数据粒度不一样批量计算每次处理一定大小的数据块。流式计算,每次处理一条记录流式计算可以提供类似批量计算的功能,为什么我们还要...
2019-06-01 18:44:52
335
原创 Hadoop的HA高可用(可行)
Hadoop的HA高可用(可行)Hadoop的HA高可用(可行)一、集群的规划Zookeeper集群 192.168.116.121 192.168.116.122 192.168.116.123 hsiehchou121 hsiehchou122 hsiehchou123Hadoop集群 192.168.116.121 192.168.116.122 192.168...
2019-06-01 18:43:44
392
原创 Kafka
Kafka离线部分 Hadoop->离线计算(hdfs / mapreduce) yarn zookeeper->分布式协调(动物管理员) hive->数据仓库(离线计算 / sql)easy coding flume->数据采集 sqoop->数据迁移mysql->hdfs/hive hdfs/hive->mysql Azkaban->...
2019-06-01 18:42:20
308
原创 git简单操作
git 版本控制系统git是一个版本控制系统一、什么是版本控制系统1、概念版本控制是一种 记录一个或若干文件内容变化,以便将来查阅特定版本修订情况的系统(*)记录文件的所有历史变化 (*)随时可恢复到任何一个历史状态 (*)多人协作开发或修改 (*)错误恢复 (*)多功能并行开发产品–> 新加功能A —> 单独拉一个新分支 –> 开发完成后合并到master或...
2019-04-25 13:16:33
260
原创 Hadoop HA和Hbase HA
Hadoop Hbase HA保证所有的服务器时间都相同一、Hadoop HAHDFS HA/root/hd/hadoop-2.8.4/etc/hadoop 下是所有hadoop配置文件1、core-site.xml<configuration> <property> <name>fs.defaultFS</name...
2019-04-25 13:14:59
310
原创 Docker入门操作
docker2013年发布一、环境配置难题开发环境运行没有问题,生产不能用,因为生产缺乏某些组件换一台机器,需要重新配置一遍能不能从根本上解决问题:安装的时候,把原始环境,一模一样地安装一遍二、虚拟机带环境安装的一种解决方案缺点: 占用资源多:虚拟机本身需要消耗资源,程序1MB,环境几百MB冗余步骤多:虚拟机是完整的操作系统,一些系统级别的操作步骤,无法跳过,比如用户登录启动...
2019-04-25 13:12:58
139
原创 内存数据库专题(MemCached 和Redis)
内存数据库专题为什么要把数据存入内存? 快常见的内存数据库: MemCached:看成Redis前身,严格来说,MemCached不能叫数据库,只能叫缓存 不支持持久化。如果内存停电,数据丢失Redis:内存数据库,支持持久化,支持HAOracle TimesTensession一致性MemCached + keepalive实现一、Memcached1、基本原理和体系架构...
2019-04-23 17:51:33
622
原创 Spark MLlib和Spsrk GraphX
Spark MLlib一、MLlib概述1、机器学习算法2、通信二、什么是机器学习1、机器学习的定义2、基于大数据的机器学习3、MLlibSpark Graphx一、Spark Graphx 是什么?二、Spark GraphX 有哪些抽象?1、顶点2、边3、三元组4、图Spark MLlibMLlib 是 Spark 可以扩展...
2019-04-19 23:03:44
604
原创 Spark 调优
Spark 调优问题:只要会用就可以,为什么还要精通内核源码与调优? Spark 性能优化概览: Spark的计算本质是,分布式计算 所以,Spark程序的性能可能因为集群中的任何因素出现瓶颈:CPU、网络带宽、或者内存CPU、网络带宽,是运维来维护的 聚焦点:内存如果内存能够容纳下所有的数据,那就不需要调优了 如果内存比较紧张,不足以放下所有数据(10亿量级—500G),需要对内...
2019-04-19 21:45:28
143
原创 Spark Streaming基础
Spark Streaming 流式计算框架,类似于Storm常用的实时计算引擎(流式计算) 1、Apache Storm:真正的流式计算2、Spark Streaming :严格上来说,不是真正的流式计算(实时计算) 把连续的流式数据,当成不连续的RDD 本质:是一个离散计算(不连续)3、Apache Flink:真正的流式计算。与Spark Streaming相反 把离散的数据...
2019-04-19 21:44:23
304
原创 Spark SQL
一、Spark SQL 基础1、什么是Spark SQL2、为什么学习Spark SQL3、核心概念:表(DataFrame DataSet)4、创建DataFrame5、操作DataFrame6、操作DataSet7、Spark SQL 中的视图二、使用数据源1、使用load函数、save函数2、Parquet文件3、json文件4、JDBC5、使用Hive...
2019-04-12 19:58:59
562
原创 CentOS7设置网络时间
1,查看centos的时间日期2,删除的centos本地时间并设置时区为上海rm -rf / etc / localtimeln -s / usr / share / zoneinfo / Asia / Shanghai / etc / localtime3,使用NTP来从一个时间服务器同步ntpdate us.pool.ntp.org[root @ hsiehchou121~] #...
2019-04-09 12:08:43
517
原创 Spark Core
Spark CoreSpark生态圈: Spark Core : RDD(弹性分布式数据集) Spark SQL Spark Streaming Spark MLLib :协同过滤,ALS,逻辑回归等等 –> 机器学习 Spark Graphx : 图计算一、Spark Core1、什么是Spark?特点https://spark.apache.org/ Apache...
2019-04-08 14:00:03
371
原创 akka练习
akka练习Actor并发模型java中的并发开发 java的并发编程是基于 共享数据 和 加锁 的一种机制。锁的是共享数据 synchronizedScala中的并发开发 不共享数据。依赖于 消息传递 的一种并发编程模式如果 Actor A 和 Actor B要相互沟通 1、A要给B传递一个消息,B有一个收件箱,B轮询自己的收件箱 2、如果B看到A的消息,解析A的消息并执行相应...
2019-04-08 13:59:04
282
原创 Scala函数式编程
Scala编程一、Scala函数式编程多范式:面向对象,函数式编程(程序实现起来简单)举例:WordCount sc 是 SparkContext , 非常重要一行:var result = sc.textFile("hdfs://xxxx/xxx/data.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect...
2019-04-08 13:57:08
325
原创 Scala基础
Scala基础1、scala编程语言 2、Spark Core : Spark内核 ,最重要的一个部分 3、Spark SQL : 类似于 hive 和 pig。数据分析引擎。sql语句提交到spark集群中运行 4、Spark Streaming :类似于 storm,用于流式计算、实时计算。本质:一个离线计算一、Scala基础1、scala简介1)scala是一个多范式的编程语...
2019-04-02 15:12:39
428
原创 Elasticsearch(二)
一、Java API操作Elasticsearch的Java客户端非常强大;它可以建立一个嵌入式实例并在必要时运行管理任务运行一个Java应用程序和Elasticsearch时,有两种操作模式可供使用。该应用程序可在Elasticsearch集群中扮演更加主动或更加被动的角色。在更加主动的情况下(称为Node Client),应用程序实例将从集群接收请求,确定哪个节点应处理该请求,就像正常节点...
2019-03-24 12:58:29
411
原创 ElasticSearch(一)
ElasticSearch1. 全文检索技术简介什么是搜索?搜索,就是在任何场景下,找寻你想要的信息,这个时候,会输入一段你要搜索的关键字,然后就期望找到这个关键字相关的有些信息如何实现搜索?OA系统,比如:通过名字搜索员工等等 mysql : select * from employee e where e.name like “%李雷%”; select * from empl...
2019-03-23 17:30:05
423
原创 HBase操作
1、hbase API操作1)首先将core-site.xml、hbase-site.xml、hdfs-site.xml引入maven工程的resources下面2)配置pom.xml文件 增加hbase依赖<dependencies> <dependency> <groupId>org.apache.hbase</groupI...
2019-03-17 18:53:35
243
原创 HBase基础
1、hbasegoogle: gfs –> hdfs mapreduce –> mapreduce bigtable –> hbaseApache HBase™是Hadoop数据库,是一个分布式,可扩展的大数据存储当您需要对大数据进行随机,实时读/写访问时,请使用Apache HBase™。该项目的目标是托管非常大的表 - 数十亿行X百万列 - 在商品硬件集群上。A...
2019-03-16 21:08:08
393
原创 Azkaban
1、Azkaban官网:https://azkaban.github.io/ Azkaban是一款开源工作流管理器Azkaban是在LinkedIn上创建的批处理工作流作业调度程序,用于运行Hadoop作业Azkaban通过作业依赖性解决订单,并提供易于使用的Web用户界面来维护和跟踪您的工作流程工作流作业: flume-&gt;hdfs-&gt;mr-&gt;hive建表-&gt;导...
2019-03-13 00:28:17
164
原创 Sqoop
1、sqoopflume数据采集 采集日志数据 sqoop数据迁移 hdfs-&amp;amp;gt;mysql azkaban任务调度 flume-&amp;amp;gt;hdfs-&amp;amp;gt;shell-&amp;amp;gt;hive-&amp;amp;gt;sql-&amp;amp;gt;BIsqoop数据迁移=mapreduce 处理离线数据 整个过程就是数据导入处理导出过程
2019-03-10 13:20:50
143
原创 Flume
1、Flume概述:Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日 志数据。它具有基于流数据流的简单灵活的架构。它具有可靠的可靠性机制和许多故障 转移和恢复机制,具有强大的容错性。它使用简单的可扩展数据模型,允许在线分析应 用程序。 1)数据采集(爬虫\日志数据\flume) 2)数据存储(hdfs/hive/hbase(nosql)) 3)数据计算(ma...
2019-03-09 18:45:02
134
原创 Hive函数&压缩
1、排序Order By:全局排序 1)按照员工表的奖金金额进行正序排序 select * from emptable order by emptable.comm asc; 可以省略asc2)按照员工表的奖金金额进行倒序排序 select * from emptable order by emptable.comm desc;3)按照部门和奖金进行升序排序 select * fr...
2019-03-05 19:28:13
461
原创 Hive的SQL操作
1、分区表1)创建分区表hive&amp;gt; create table dept_partitions() &amp;gt; partition by() &amp;gt; row format &amp;gt; delimited fields &amp;gt; terminated by '';例:hive&amp;gt; create table
2019-03-05 19:27:47
503
原创 Docker基本使用
Docker在Linux中的安装一、rpm离线安装docker17.121.下载docker安装包在https://download.docker.com/linux/centos/7/x86_64/stable/Packages/下载docker-ce-17.12.0.ce-1.el7.centos.x86_64.rpm2.下载9个依赖在http://mirrors.163.com/c...
2019-03-05 19:27:04
302
原创 Hive基础
Hive&amp;amp;lt;p&amp;amp;gt;官网:&amp;amp;lt;a href=&amp;quot;http://hive.apache.org/&amp;quot; target=&amp;quot;_blank&amp;quot;&amp;amp;gt;http://hive.apache.org/&amp;amp;lt;/a&a
2019-02-28 22:17:23
115
原创 zookeeper练习
命令行操作配置环境变量:vi /etc/profileexport ZOOKEEPER_HOME=/root/hd/zookeeper-3.4.10export PATH=$ZOOKEEPER_HOME/bin:$PATH声明环境变量:source /etc/profile 发送到其他机器 scp /etc/profile hsiehchou122:/etc/ scp /etc/p...
2019-02-24 19:53:40
409
原创 CentOS7.6使用yum安装MySQL8.0
CentOS7.6使用yum安装MySQL8.01、yum仓库下载MySQL:sudo yum localinstall https://dev.mysql.com/get/mysql80-community-release-el7-2.noarch.rpm2、yum安装MySQL:sudo yum install mysql-community-server3、启动MySQL服务:sudo...
2019-02-24 19:52:39
363
原创 Git快速上手
Linux 平台上安装Git 的工作需要调用 curl,zlib,openssl,expat,libiconv 等库的代码,所以需要先安装这些依赖工具 在有 yum 的系统上(比如 Fedora)或者有 apt-get 的系统上(比如 Debian 体系),可以用下面的命令安装: 各 Linux 系统可以很简单多使用其安装包管理工具进行安装:Debian/UbuntuDebian/Ubu...
2019-02-23 22:06:51
288
原创 大数据常用基本算法
1、冒泡排序冒泡排序(Bubble Sort),是一种计算机科学领域的较简单的排序算法 它重复地走访过要排序的元素列,依次比较两个相邻的元素,如果他们的顺序(如从大 到小、首字母从A到Z)错误就把他们交换过来。走访元素的工作是重复地进行直到没有 相邻元素需要交换,也就是说该元素已经排序完成 这个算法的名字由来是因为越大的元素会经由交换慢慢“浮”到数列的顶端(升序或降序 排列),就如同碳...
2019-02-23 22:05:42
4281
原创 zookeeper介绍
Zookeeper官网:http://zookeeper.apache.org/ 介绍:Apache ZooKeeper致力于开发和维护开源服务器,实现高度可靠的分布式协调ZooKeeper是一种集中式服务,用于维护配置信息,命名,提供分布式同步和提供组服务。所有这些类型的服务都以分布式应用程序的某种形式使用。每次实施它们都需要做很多工作来修复不可避免的错误和竞争条件。由于难以实现这些类型的...
2019-02-23 22:05:04
174
原创 java之MySQL的使用
1、MySQL概要关系型数据库。—Access数据库 oracle数据库、Postgresql- 非关系型数据库。—-Hbase等 库:—package 表:–class 字段:–属性 Oracle旗下产品—-分两种 (GPL协议的 社区版和企业版) CDH HDP–后面大数据给大家讲 Apache–hive hdfs hadoopRDBMS:关系数据库管...
2019-02-21 00:24:39
108
原创 java反射
1、反射获取Class对象的三种方式反编译 不是自己写的类,也不知道类里面有哪些方法 变量,让你能够使用程序上线了,修改程序但不终止程序的运行—-反射 (1)Object类 getClass 方法 getClass 返回此Object的运行时类 getName() 返回由 类对象表示的实体(类,接口,数组类,原始类型或空白)的名称,作为 String (2)通过Clas...
2019-02-20 17:35:33
87
原创 java多线程
1、ObjectInputStream反序列化。 (1)构造函数 ObjectInputStream(InputStream in) 创建从指定的InputStream读取的ObjectInputStream(2)主要方法 Object readObject() 从ObjectInputStream读取一个对象2、POI 实现对word、Excel等文件操作Apache–D...
2019-02-20 17:33:02
104
jd-gui对java的class字节码进行反编译。
2019-02-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人