hsiehchou-优快云博客

原创第一章 Python概述与开发环境安装

第一章 Python概述与开发环境安装1、Python开发环境安装2、Anaconda安装选择 just me 不用勾选添加本地环境变量查看Anaconda环境是否安装成功（查看Anaconda版本号）：conda --version查看目前安装了哪些环境变量：conda info --envs查看 Anaconda 当前版本以及安装了哪些包：conda list3、Spyder3.1 读取文件里面的行数import sys import os.path# 文件目录dir =

2020-10-02 17:21:54 640 1

原创 Flink练习

Flink练习一、Flink开发IDEA环境搭建与测试1、IDEA开发环境先虚拟机联网，然后执行yum -y install nc nc是用来打开端口的工具然后nc -l 9000 1.pom文件设置<properties> <maven.compiler.source>1.8</maven.compiler.source> ...

2019-06-01 18:48:11 581

原创 Flink基础

Flink基础一、Flink概述官网：http://flink.apache.org/ mapreduce->maxcumpute hbase->部门 quickBI DataV Hive->高德地图 storm->Jstorm … 2019年1月阿里正式开源flink->blink Apache Flink是一个框架和分布式处理引擎，用于对无...

2019-06-01 18:47:31 957

原创 Storm练习

Storm练习一、需求需求：统计网站访问量(实时统计)技术选型：特点（数据量大、做计算、实时）实时计算框架：storm 1）spout 数据源，接入数据本地文件2）bolt 业务逻辑处理切分数据查到网址3）bolt 累加次数求和二、代码编写PvCountSpout.javapackage com.hsiehch...

2019-06-01 18:46:30 354

原创 Storm集群和集成

Storm集群和集成一、Storm集群任务提交流程二、Storm内部通信机制三、集成Storm1、与JDBC集成将Storm Bolt处理的结果插入MySQL数据库中需要依赖的jar包  $STORM_HOME\external\sql\storm-sql-core*.jar  $STORM_HOME\external\storm-jdbc\storm-jdbc-...

2019-06-01 18:45:40 237

原创 Storm基础

Storm基础流式计算专题批量计算、实时计算、离线计算、流式计算共同点：数据源 –> 采集数据 –> task worker –> task worker –> sink 输出批量计算和流式计算区别：处理数据粒度不一样批量计算每次处理一定大小的数据块。流式计算，每次处理一条记录流式计算可以提供类似批量计算的功能，为什么我们还要...

2019-06-01 18:44:52 335

原创 Hadoop的HA高可用（可行）

Hadoop的HA高可用（可行）Hadoop的HA高可用（可行）一、集群的规划Zookeeper集群 192.168.116.121 192.168.116.122 192.168.116.123 hsiehchou121 hsiehchou122 hsiehchou123Hadoop集群 192.168.116.121 192.168.116.122 192.168...

2019-06-01 18:43:44 392

原创 Kafka

Kafka离线部分 Hadoop->离线计算(hdfs / mapreduce) yarn zookeeper->分布式协调（动物管理员） hive->数据仓库（离线计算 / sql）easy coding flume->数据采集 sqoop->数据迁移mysql->hdfs/hive hdfs/hive->mysql Azkaban-&gt...

2019-06-01 18:42:20 308

原创 git简单操作

git 版本控制系统git是一个版本控制系统一、什么是版本控制系统1、概念版本控制是一种记录一个或若干文件内容变化，以便将来查阅特定版本修订情况的系统（*）记录文件的所有历史变化（*）随时可恢复到任何一个历史状态（*）多人协作开发或修改（*）错误恢复（*）多功能并行开发产品–> 新加功能A —> 单独拉一个新分支 –> 开发完成后合并到master或...

2019-04-25 13:16:33 260

原创 Hadoop HA和Hbase HA

Hadoop Hbase HA保证所有的服务器时间都相同一、Hadoop HAHDFS HA/root/hd/hadoop-2.8.4/etc/hadoop 下是所有hadoop配置文件1、core-site.xml<configuration> <property> <name>fs.defaultFS</name...

2019-04-25 13:14:59 310

原创 Docker入门操作

docker2013年发布一、环境配置难题开发环境运行没有问题，生产不能用，因为生产缺乏某些组件换一台机器，需要重新配置一遍能不能从根本上解决问题：安装的时候，把原始环境，一模一样地安装一遍二、虚拟机带环境安装的一种解决方案缺点：占用资源多：虚拟机本身需要消耗资源，程序1MB，环境几百MB冗余步骤多：虚拟机是完整的操作系统，一些系统级别的操作步骤，无法跳过，比如用户登录启动...

2019-04-25 13:12:58 139

原创内存数据库专题（MemCached 和Redis）

内存数据库专题为什么要把数据存入内存？快常见的内存数据库： MemCached：看成Redis前身，严格来说，MemCached不能叫数据库，只能叫缓存不支持持久化。如果内存停电，数据丢失Redis：内存数据库，支持持久化，支持HAOracle TimesTensession一致性MemCached + keepalive实现一、Memcached1、基本原理和体系架构...

2019-04-23 17:51:33 622

原创 Spark MLlib和Spsrk GraphX

Spark MLlib一、MLlib概述1、机器学习算法2、通信二、什么是机器学习1、机器学习的定义2、基于大数据的机器学习3、MLlibSpark Graphx一、Spark Graphx 是什么？二、Spark GraphX 有哪些抽象？1、顶点2、边3、三元组4、图Spark MLlibMLlib 是 Spark 可以扩展...

2019-04-19 23:03:44 604

原创 Spark 调优

Spark 调优问题：只要会用就可以，为什么还要精通内核源码与调优？ Spark 性能优化概览： Spark的计算本质是，分布式计算所以，Spark程序的性能可能因为集群中的任何因素出现瓶颈：CPU、网络带宽、或者内存CPU、网络带宽，是运维来维护的聚焦点：内存如果内存能够容纳下所有的数据，那就不需要调优了如果内存比较紧张，不足以放下所有数据（10亿量级—500G）,需要对内...

2019-04-19 21:45:28 143

原创 Spark Streaming基础

Spark Streaming 流式计算框架，类似于Storm常用的实时计算引擎（流式计算） 1、Apache Storm：真正的流式计算2、Spark Streaming ：严格上来说，不是真正的流式计算（实时计算）把连续的流式数据，当成不连续的RDD 本质：是一个离散计算（不连续）3、Apache Flink：真正的流式计算。与Spark Streaming相反把离散的数据...

2019-04-19 21:44:23 304

原创 Spark SQL

一、Spark SQL 基础1、什么是Spark SQL2、为什么学习Spark SQL3、核心概念：表（DataFrame DataSet）4、创建DataFrame5、操作DataFrame6、操作DataSet7、Spark SQL 中的视图二、使用数据源1、使用load函数、save函数2、Parquet文件3、json文件4、JDBC5、使用Hive...

2019-04-12 19:58:59 562

原创 CentOS7设置网络时间

1，查看centos的时间日期2，删除的centos本地时间并设置时区为上海rm -rf / etc / localtimeln -s / usr / share / zoneinfo / Asia / Shanghai / etc / localtime3，使用NTP来从一个时间服务器同步ntpdate us.pool.ntp.org[root @ hsiehchou121~] #...

2019-04-09 12:08:43 517

原创 Spark Core

Spark CoreSpark生态圈： Spark Core ： RDD（弹性分布式数据集） Spark SQL Spark Streaming Spark MLLib ：协同过滤，ALS，逻辑回归等等 –> 机器学习 Spark Graphx ：图计算一、Spark Core1、什么是Spark？特点https://spark.apache.org/ Apache...

2019-04-08 14:00:03 371

原创 akka练习

akka练习Actor并发模型java中的并发开发 java的并发编程是基于共享数据和加锁的一种机制。锁的是共享数据 synchronizedScala中的并发开发不共享数据。依赖于消息传递的一种并发编程模式如果 Actor A 和 Actor B要相互沟通 1、A要给B传递一个消息，B有一个收件箱，B轮询自己的收件箱 2、如果B看到A的消息，解析A的消息并执行相应...

2019-04-08 13:59:04 282

原创 Scala函数式编程

Scala编程一、Scala函数式编程多范式：面向对象，函数式编程（程序实现起来简单）举例：WordCount sc 是 SparkContext , 非常重要一行：var result = sc.textFile("hdfs://xxxx/xxx/data.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect...

2019-04-08 13:57:08 325

原创 Scala基础

Scala基础1、scala编程语言 2、Spark Core ： Spark内核，最重要的一个部分 3、Spark SQL : 类似于 hive 和 pig。数据分析引擎。sql语句提交到spark集群中运行 4、Spark Streaming ：类似于 storm，用于流式计算、实时计算。本质：一个离线计算一、Scala基础1、scala简介1）scala是一个多范式的编程语...

2019-04-02 15:12:39 428

原创 Elasticsearch（二）

一、Java API操作Elasticsearch的Java客户端非常强大；它可以建立一个嵌入式实例并在必要时运行管理任务运行一个Java应用程序和Elasticsearch时，有两种操作模式可供使用。该应用程序可在Elasticsearch集群中扮演更加主动或更加被动的角色。在更加主动的情况下（称为Node Client），应用程序实例将从集群接收请求，确定哪个节点应处理该请求，就像正常节点...

2019-03-24 12:58:29 411

原创 ElasticSearch（一）

ElasticSearch1. 全文检索技术简介什么是搜索？搜索，就是在任何场景下，找寻你想要的信息，这个时候，会输入一段你要搜索的关键字，然后就期望找到这个关键字相关的有些信息如何实现搜索？OA系统，比如：通过名字搜索员工等等 mysql : select * from employee e where e.name like “%李雷%”; select * from empl...

2019-03-23 17:30:05 423

原创 HBase操作

1、hbase API操作1）首先将core-site.xml、hbase-site.xml、hdfs-site.xml引入maven工程的resources下面2）配置pom.xml文件增加hbase依赖<dependencies> <dependency> <groupId>org.apache.hbase</groupI...

2019-03-17 18:53:35 243

原创 HBase基础

1、hbasegoogle: gfs –> hdfs mapreduce –> mapreduce bigtable –> hbaseApache HBase™是Hadoop数据库，是一个分布式，可扩展的大数据存储当您需要对大数据进行随机，实时读/写访问时，请使用Apache HBase™。该项目的目标是托管非常大的表 - 数十亿行X百万列 - 在商品硬件集群上。A...

2019-03-16 21:08:08 393

原创 Azkaban

1、Azkaban官网：https://azkaban.github.io/ Azkaban是一款开源工作流管理器Azkaban是在LinkedIn上创建的批处理工作流作业调度程序，用于运行Hadoop作业Azkaban通过作业依赖性解决订单，并提供易于使用的Web用户界面来维护和跟踪您的工作流程工作流作业： flume-&gt;hdfs-&gt;mr-&gt;hive建表-&gt;导...

2019-03-13 00:28:17 164

原创 Sqoop

1、sqoopflume数据采集采集日志数据 sqoop数据迁移 hdfs-&amp;amp;gt;mysql azkaban任务调度 flume-&amp;amp;gt;hdfs-&amp;amp;gt;shell-&amp;amp;gt;hive-&amp;amp;gt;sql-&amp;amp;gt;BIsqoop数据迁移=mapreduce 处理离线数据整个过程就是数据导入处理导出过程

2019-03-10 13:20:50 143

原创 Flume

1、Flume概述：Flume是一种分布式，可靠且可用的服务，用于有效地收集，聚合和移动大量日志数据。它具有基于流数据流的简单灵活的架构。它具有可靠的可靠性机制和许多故障转移和恢复机制，具有强大的容错性。它使用简单的可扩展数据模型，允许在线分析应用程序。 1）数据采集（爬虫\日志数据\flume） 2）数据存储（hdfs/hive/hbase(nosql)） 3）数据计算（ma...

2019-03-09 18:45:02 134

原创 Hive函数&压缩

1、排序Order By:全局排序 1)按照员工表的奖金金额进行正序排序 select * from emptable order by emptable.comm asc; 可以省略asc2）按照员工表的奖金金额进行倒序排序 select * from emptable order by emptable.comm desc;3)按照部门和奖金进行升序排序 select * fr...

2019-03-05 19:28:13 461

原创 Hive的SQL操作

1、分区表1）创建分区表hive&amp;gt; create table dept_partitions() &amp;gt; partition by() &amp;gt; row format &amp;gt; delimited fields &amp;gt; terminated by '';例：hive&amp;gt; create table

2019-03-05 19:27:47 503

原创 Docker基本使用

Docker在Linux中的安装一、rpm离线安装docker17.121.下载docker安装包在https://download.docker.com/linux/centos/7/x86_64/stable/Packages/下载docker-ce-17.12.0.ce-1.el7.centos.x86_64.rpm2.下载9个依赖在http://mirrors.163.com/c...

2019-03-05 19:27:04 302

原创 Hive基础

Hive&amp;amp;lt;p&amp;amp;gt;官网：&amp;amp;lt;a href=&amp;quot;http://hive.apache.org/&amp;quot; target=&amp;quot;_blank&amp;quot;&amp;amp;gt;http://hive.apache.org/&amp;amp;lt;/a&a

2019-02-28 22:17:23 115

原创 zookeeper练习

命令行操作配置环境变量：vi /etc/profileexport ZOOKEEPER_HOME=/root/hd/zookeeper-3.4.10export PATH=$ZOOKEEPER_HOME/bin:$PATH声明环境变量：source /etc/profile 发送到其他机器 scp /etc/profile hsiehchou122:/etc/ scp /etc/p...

2019-02-24 19:53:40 409

原创 CentOS7.6使用yum安装MySQL8.0

CentOS7.6使用yum安装MySQL8.01、yum仓库下载MySQL：sudo yum localinstall https://dev.mysql.com/get/mysql80-community-release-el7-2.noarch.rpm2、yum安装MySQL：sudo yum install mysql-community-server3、启动MySQL服务：sudo...

2019-02-24 19:52:39 363

原创 Git快速上手

Linux 平台上安装Git 的工作需要调用 curl，zlib，openssl，expat，libiconv 等库的代码，所以需要先安装这些依赖工具在有 yum 的系统上（比如 Fedora）或者有 apt-get 的系统上（比如 Debian 体系），可以用下面的命令安装：各 Linux 系统可以很简单多使用其安装包管理工具进行安装：Debian/UbuntuDebian/Ubu...

2019-02-23 22:06:51 288

原创大数据常用基本算法

1、冒泡排序冒泡排序（Bubble Sort），是一种计算机科学领域的较简单的排序算法它重复地走访过要排序的元素列，依次比较两个相邻的元素，如果他们的顺序（如从大到小、首字母从A到Z）错误就把他们交换过来。走访元素的工作是重复地进行直到没有相邻元素需要交换，也就是说该元素已经排序完成这个算法的名字由来是因为越大的元素会经由交换慢慢“浮”到数列的顶端（升序或降序排列），就如同碳...

2019-02-23 22:05:42 4281

原创 zookeeper介绍

Zookeeper官网：http://zookeeper.apache.org/ 介绍：Apache ZooKeeper致力于开发和维护开源服务器，实现高度可靠的分布式协调ZooKeeper是一种集中式服务，用于维护配置信息，命名，提供分布式同步和提供组服务。所有这些类型的服务都以分布式应用程序的某种形式使用。每次实施它们都需要做很多工作来修复不可避免的错误和竞争条件。由于难以实现这些类型的...

2019-02-23 22:05:04 174

原创 java之MySQL的使用

1、MySQL概要关系型数据库。—Access数据库 oracle数据库、Postgresql- 非关系型数据库。—-Hbase等库：—package 表：–class 字段：–属性 Oracle旗下产品—-分两种（GPL协议的社区版和企业版） CDH HDP–后面大数据给大家讲 Apache–hive hdfs hadoopRDBMS：关系数据库管...

2019-02-21 00:24:39 108

原创 java反射

1、反射获取Class对象的三种方式反编译不是自己写的类，也不知道类里面有哪些方法变量，让你能够使用程序上线了，修改程序但不终止程序的运行—-反射（1）Object类 getClass 方法 getClass 返回此Object的运行时类 getName() 返回由类对象表示的实体（类，接口，数组类，原始类型或空白）的名称，作为 String （2）通过Clas...

2019-02-20 17:35:33 87

原创 java多线程

1、ObjectInputStream反序列化。（1）构造函数 ObjectInputStream(InputStream in) 创建从指定的InputStream读取的ObjectInputStream（2）主要方法 Object readObject() 从ObjectInputStream读取一个对象2、POI 实现对word、Excel等文件操作Apache–D...

2019-02-20 17:33:02 104

jd-gui对java的class字节码进行反编译。

空空如也