- 博客(28)
- 资源 (4)
- 收藏
- 关注
原创 hive的map join
Hive的map join 什么是Map Join?MapJoin顾名思义,就是在Map阶段进行表之间的连接。而不需要进入到Reduce阶段才进行连接。这样就节省了在Shuffle阶段时要进行的大量数据传输。从而起到了优化作业的作用。Map Join的原理?即在map 端进行join,其原理是broadcast join,即把小表作为一个完整的驱动表来进行join操作。通常情况下,要...
2019-03-28 15:31:24
1694
原创 Hbase总结
Hbase 总结Hbase简介Hbase是Hadoop Database的简称,Hbase是分布式、面向列的开源数据库(准确是面向列族)。HDFS为Hbase提供可靠的底层数据存储服务,Map Reduce为Hbase提供高性能的计算能力,Zookeeper为Hbaset提供稳定服务和Failover机制,因为我们说Hbase是一个通过大量廉价的机器解决海量数据的高速存储和读取的分布式数据库...
2019-03-28 15:29:08
283
原创 Flume总结
Flume总结Flume是一个高可用,高可靠的,分布式的海量的日志采集、聚合和传输的系统。Flume支持在日志系统中定制给列数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方的能力。有三部分组成:Source/channel/Sink Source相当于数据录入源,channel相当于数据传输通道;Sink相当于数据接收端。Event:事件Ev...
2019-03-28 15:28:11
606
原创 大数据面试题
一、hadoop(1)、概念题1、简述hadoop生态组件2、mapreduce原理3、对mapreduce的了解4、hadoop任务调度,进程调度5、mapReduce的过程6、hadoop的事务怎么操作7、请描述HDFS存储的机制8、请详细比较Hadoop和传统SQL数据库9、请用MapReduce如何实现两张表连接,有哪些方法10、请描述MapRe...
2019-02-14 23:17:09
251
原创 hive的基本概念
Hive基本概念1.什么是Hive? Hive:由Facebook开源用于解决海量结构化日志的数据统计 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能 本质是:将HQL转化成MapReduce程序 1.Hive处理数据存储在HDFS 2.Hive分析数据底层的实现Map Reduce 3.执行程序运行在YARN上...
2019-02-08 09:23:04
263
原创 Hadoop入门
1.Hadoop是什么? 1.Hadoop是由apache基金会开发的分布式系统基础架构 2.Hadoop的开发是为了解决海量数据的存储和海量数据的分布式计算 3.Hadoop又称为:Hadoop生态圈2.Hadoop的三大发行版本 1.Apache版本最原始(最基础),适合初学者使用学习 2.Cloudera在大型的互联网的企业用的比较多 3....
2019-02-08 09:21:41
214
原创 Python日志
{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# LOG\n", " - https://www.cnblogs.com/yyds/p/6901864.html\n", " - logging\n",
2019-01-31 20:14:11
607
原创 Hbase的常用命令
HBase 常用命令1,通用命令status: 提供HBase的状态,例如,服务器的数量。version: 提供正在使用HBase版本。table_help: 表引用命令提供帮助。whoami: 提供有关用户的信息。2,数据定义语言:表操作create: 创建一个表。list: 列出HBase的所有表。disable: 禁用表。is_disabled: 验证表是否被禁用。...
2019-01-31 20:12:04
336
原创 python爬虫小记
python爬虫一、什么是爬虫? 网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。二、爬虫的学习路线 1.首先学习python的基本语法知识 2.学习python爬虫常用到的几个重要内置库urllib,http等,用于下载网页 3.学习正则表达式,Beautiful Soup(bs4),Xpath(lxml)等网页解析工具 4.开始一...
2019-01-31 20:09:49
179
原创 scala随笔
object loopDemo2 extends App { def foo(x:Int):Int = { println(x) x * x } def byValue(fn:Any):Unit = { println("----------") println(fn) println(fn) } def byName(fn: =&...
2018-12-19 22:18:30
149
原创 spark-2.4.0安装和部署
前言在安装后hadoop之后,接下来需要安装的就是Spark。Spark下载为了方便,我直接是进入到了/usr/local文件夹下面进行下载spark-2.2.0wget https://d3kbcqa49mib13.cloudfront.net/spark-2.4.0-bin-hadoop2.7.tgzSpark安装之前的准备文件的解压与改名tar -zxvf spark-2.2...
2018-12-17 14:22:17
3502
1
原创 python日志
import loggingimport random# 基本配置 每个程序只能配置一次 运行时不可更改# 指定方式:文件/网络。。。和日志格式logging.basicConfig( filename="log/demo.log", level=logging.DEBUG, format="%(asctime)s|%(levelname)s|%(message...
2018-12-05 11:22:45
225
原创 python的基本变量
Python 变量类型变量存储在内存中的值。这就意味着在创建变量时会在内存中开辟一个空间。基于变量的数据类型,解释器会分配指定内存,并决定什么数据可以被存储在内存中。因此,变量可以指定不同的数据类型,这些变量可以存储整数,小数或字符。 变量赋值Python 中的变量赋值不需要类型声明。每个变量在内存中创建,都包括变量的标识,名称和数据这些信息。每个变量在使用前都必须...
2018-11-19 21:06:22
143
原创 python基本语法
Python 基础语法Python 语言与 Perl,C 和 Java 等语言有许多相似之处。但是,也存在一些差异。在本章中我们将来学习 Python 的基础语法,让你快速学会 Python 编程。第一个 Python 程序交互式编程交互式编程不需要创建脚本文件,是通过 Python 解释器的交互模式进来编写代码。linux上你只需要在命令行中输入 Python 命令即可启...
2018-11-19 17:32:29
176
原创 Centos7基于linux系统安装mysql5.7.17
如果没有wget命令..可以使用yum 安装一个wgetyum -y install wget第一步:下载mysql[root@MiWiFi-R3-srv ~]# wget http://mirrors.sohu.com/mysql/MySQL-5.7/mysql-5.7.17-linux-glibc2.5-x86_64.tar.gz1:检查是否本地已经安装了mysql ...
2018-10-24 01:01:11
827
1
原创 Centos7基于Hadoop2.7.5安装hive2.3.3
1.下载hive2.3.3 下载地址:http://hive.apache.org/downloads.html 然后点击download 下载hive2.3.32.安装hive2.3.3 #解压: tar -zxvf apache-hive-2.1.1-bin.tar.gz #把解压后的文件移到目录/usr/local/下: mv apac...
2018-10-24 00:56:31
1377
原创 Hive基础
Hive基础1,命令行连接2,beeline连接https://blog.youkuaiyun.com/JENREY/article/details/79870864<property> <name>hadoop.proxyuser.bda.hosts</name> <value>*</value></prop...
2018-10-24 00:39:50
127
原创 beeline常用的命令
<span style="font-size: 18px">Beeline和其他工具有一些不同,执行查询都是正常的SQL输入,但是如果是一些管理的命令, 比如进行连接,中断,退出,执行Beeline命令需要带上“!”,不需要终止符。常用命令介绍: 1、!connect url –连接不同的Hive2服务器 2、!exit –退出shell ...
2018-10-24 00:36:32
10010
原创 SSM框架的面试题
SSM框架面试题 Spring在SSM起什么作用Spring是一个轻量级框架,也是一个容器,Spring实质上讲就是一个Bean工厂,主要用来管理Bean的生命周期和框架集成。有IOC控制反转,DI依赖注入,控制反转是把dao依赖注入到service层,然后service层反转给action层,Spring的顶层容器为BeanFactory,常用的ApplicationContext为它的子接...
2018-09-12 23:16:24
3930
1
原创 maven
Maven的一些知识一、maven的安装去官网下载maven的压缩包 解压,解压的文件夹不能有中文,不能用空格 然后配置环境变量 maven-home 和 path 前提下必须有java_home的配置 配置path %maven_home%/bin 在黑窗口里输入 mvn -v 查看版本Maven的仓库maven有远程仓库和本地仓库 远程仓库:包括中央...
2018-09-12 23:06:08
117
原创 mysql 数据库内连接,外链接的区别
--查询分析器中执行:--建表table1,table2:create table table1(id int,name varchar(10))create table table2(id int,score int)insert into table1 select 1,'lee'insert into table1 select 2,'zhang'insert into table1 sel...
2018-06-12 00:08:52
709
原创 使用DDL操作数据库(二)
使用DDL语句操作数据表 5、修改表 (一)修改表名: ALTER TABLE<旧表名>RENAME[TO]<新表名> 其中,TO是可选参数,使用与否不受影响。仅修改表名,不影响表的结构。 (二)添加字段: 随着业务需求的变化,可能需要在已经存在的表里添加字段,语法如下: ALTER TABLE 表名 ...
2018-06-07 23:31:40
317
原创 使用DDL语句操作数据库 (一)
这种实在cmd命令提示符中进行运用首先打开命令提示符,以管理员身份运行首先打开数据库服务,net start mysql如果已经打开了输入mysql -uroot -p密码进入mysql输入语句使用DDL语句操作数据库1、创建数据库CREATE DATABASE 数据库名;例如,创建school的数据库如下:CREATE DATABASE school;2、查看数据库S...
2018-06-05 23:41:03
1806
1
原创 数据库概述
数据库的概述 数据库就是存储数据的仓库,其本质是一个文件系统,数据按照特定的格式将数据存储起来,用户可以对数据库中的数据进行增加,修改,删除及查询操作。使用数据库的必要性 随着互联网的高速发展,大量的数据在不断的产生,伴随而来的是如何高效安全的存储数据和操作数据,而这一问题成为了信息时代的一个非常大的问题。 使用数据库可以高效的有条理的储存数据1、可以结构...
2018-06-04 21:54:12
2860
原创 MYSQL的安装及配置
一、MYSQL的安装1、打开下载的mysql安装文件mysql-5.5.27-win32.zip,双击解压缩,运行“setup.exe”。2、选择安装类型,有“Typical(默认)”、“Complete(完全)”、“Custom(用户自定义)”三个选项,选择“Custom”,按“next”键继续。3、点选“Browse”,手动指定安装目录。4、填上安装目录,我的是“F:\Server\MySQL...
2018-06-03 23:57:59
167
原创 重置MYSQL数据库root的密码
在my.ini的[mysqld]字段加入:skip-grant-tables重启mysql服务,这时的mysql不需要密码即可登录数据库 然后进入mysqlmysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root';mysql>flush privileges; 运行之后最后去掉my....
2018-06-03 22:32:12
160
原创 JavaScript的基本介绍
JavaScript是由美国网景通公司的Netscape发明的。JavaScript是一种网页与计算机进行交互的脚本语言。JavaScript是一种描述语言,也是一种基于对象和事件驱动的,安全的脚本语言。JavaScript的特点是:1、JavaScript主要用来想HTML页面添加交互行为的语言。 2、JavaScript是一种脚本语...
2018-06-03 14:38:57
253
转载 java标识符
标识符是用来给变量、类、方法以及包进行命名的,如Welcome、main、System、age、name、gender等。标识符需要遵守一定的规则:标识符必须以字母、下划线_、美元符号$开头。 标识符其它部分可以是字母、下划线“_”、美元符“$”和数字的任意组合。Java 标识符大小写敏感,且长度无限制。标识符不可以是Java的关键字。标识符的使用规范表示类名的标识符:每个单词的首字母大写,如M...
2018-06-02 23:47:50
129
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人