- 博客(51)
- 收藏
- 关注
转载 MongoDB基础语法学习
MongoDB学习一.登录和退出mongo命令直接加MongoDB服务器的IP地址(比如:mongo 10.77.20.xx),就可以利用Mongo的默认端口号(27017)登陆Mongo,然后便能够进行简单的命令行操作。至于退出,直接exit,然后回车就好了。[plain]$ mongo 10.77.20.xx MongoDB shell version: 2....
2019-04-29 18:29:12
399
转载 Java中的23种设计模式详解及代码和图解
设计模式(Design Patterns) ——可复用面向对象软件的基础设计模式(Design pattern)是一套被反复使用、多数人知晓的、经过分类编目的、代码设计经验的总结。使用设计模式是为了可重用代码、让代码更容易被他人理解、保证代码可靠性。 毫无疑问,设计模式于己于他人于系统都是多赢的,设计模式使代码编制真正工程化...
2019-03-01 14:55:39
747
原创 hive分区
hive分区方便查询分区表指的是在创建表时指定的partition的分区空间。1.Hive 分区表在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。分区表指的是在创建表时指定的partition的分区空间。2.hive分桶1.简介桶是通过对指定列进行哈希计算来...
2019-02-28 16:27:12
638
转载 java各种排序算法的稳定性和时间复杂度小结
选择排序、快速排序、希尔排序、堆排序不是稳定的排序算法,冒泡排序、插入排序、归并排序和基数排序是稳定的排序算法。 冒泡法: 这是最原始,也是众所周知的最慢的算法了。他的名字的由来因为它的工作看来象是冒泡: 复杂度为O(n*n)。当数据为正序,将不会有交换。复杂度为O(0)。直接插入排序:O(n*n)选择排序:O(n*n)快速排序:平均时间复杂度log2(n)*n,所有...
2019-02-24 15:56:50
1362
原创 排序算法你会多少种,时间复杂度和稳定性是怎样的?
内部排序法的性能快速排序法的平均执行时间较少,但是在最坏的情况下它的性能会发生退化,这时不如用堆排序和归并排序法效率高。当序列长度较短时,可采用容易实现的选择排序、插入排序或者冒泡排序法。当序列长度较长时,宜采用快速排序、堆排序或者归并排序。...
2019-02-24 15:50:18
331
原创 进程和线程的区别
进程和线程的区别: 答: 进程:是并发执行的程序在执行过程中分配和管理资源的基本单位,是一个动态概念,竞争计算机系统资源的基本单位。线程:是进程的一个执行单元,是进程内科调度实体。比进程更小的独立运行的基本单位。线程也被称为轻量级进程。一个程序至少一个进程,一个进程至少一个线程。为什么会有线程?每个进程都有自己的地址空间,即进程空间,在网络或多用户换机下,一个服务器通常需要接收大量不确...
2019-01-26 22:18:51
531
原创 jvm垃圾回收机制
jvm 垃圾回收机制 答:垃圾回收机制是 Java 非常重要的特性之一,也是面试题的常客。它让开发者无需关注空间的创建和释放,而是以守护进程的形式在后台自动回收垃圾。这样做不仅提高了开发效率,更改善了内存的使用状况今天本文来对垃圾回收机制进行讲解,主要涉及下面几个问题:a.什么是堆内存?b.什么是垃圾?c.有哪些方法回收这些垃圾?d.什么是分代回收机制?什么是 Java 堆...
2019-01-26 22:02:47
575
原创 spark:将list里的数据保存到本地文件案例
spark:将list里的数据保存到本地文件案例代码:package sparkQLimport org.apache.spark.sql.SparkSessionobject jsonTest { case class Person(id:Int,name:String,age:Int) def main(args: Array[String]): Unit = {...
2018-12-17 19:07:43
2994
原创 spark:单表关联案例
spark单表关联 题目:求孙子和祖父母的关系列表数据:child parentTom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack JesseTerry ...
2018-12-12 19:46:24
1102
原创 spark之二次排序案例:要求先按账户排序,在按金额排序
一.Spark 二次排序:当排序的过程中,假如按照key排序使用sortByKey算子的时候,经常有很多key相同的数据,但是我们需要再次根据其他指标将相同key的数据再次细致的进行第二次的排序,这个时候我们就需要用到二次排序。并且很多场景需要三次排序,四次排序,五次甚至更多次的排序。二.案例:要求先按账户排序,在按金额排序数据如下:hadoop@apache ...
2018-12-12 19:28:12
889
原创 spark案例:给定一组键值对("spark",2),("hadoop",6),("hadoop",4),("spark",6),键值对的key表示图书名称,value表示某天图书销量
案例:给定一组键值对("spark",2),("hadoop",6),("hadoop",4),("spark",6),键值对的key 表示图书名称,value表示某天图书销量,请计算每个键对应的平均值,也就是计算每种图书的每天平均销量。 spark代码:import org.apache.spark.{SparkConf, SparkContext}o...
2018-12-12 18:51:46
3416
原创 spark排序案例:定义三个文件对文件内容进行排序(数字)
1.排序: 定义三个文件对文件内容进行排序(数字)数据:1.txt788996672.txt808284863.txt88996677 spark代码: import org.apache.spark.{HashPartitioner, SparkConf, SparkContext}object paix...
2018-12-12 18:43:27
2055
原创 spark集群模式的部署
1.Spark 介绍 【1】.spark处理大数据的统一分析计算引擎; a.速度:在迭代循环的计算模型下,spark比Hadoop快100倍; b.易用性:spark提供多种语言的API,如Java、Python、Scala、R、SQL等 c.扩展性:在spark RDD基础上,提供一整套的分析计算模型:spark SQL、spark Str...
2018-12-05 18:28:46
869
原创 案例:Scala之Akka分布式编程
【Akka分布式编程】1. Akka框架 akka框架是actor模型的最佳实践 Akka是使用Scala语言编写的,基于Actor模型的框架。可以用来开发高并发、分布式、基于消息驱动的应用程序。 它被应用在Spark中以实现节点之间的通信。 Akka必须先导入包,Scala支持Maven,也有个sbt(国内支持不是很好)...
2018-12-04 19:32:00
594
原创 scala之高阶函数
Scala基本类型说明------------------------------ 1.scala2.10版本以上将不采用八进制对整数赋值;支持十进制和十六进制(0x或0X) 2.浮点数文本是由十进制数字,可选的小数点和可选的E或e及指数部分组成的函数式编程------------------------------ 函数式编程的特点 函数...
2018-12-04 12:44:01
490
原创 Java基础总结(超详细)
这是本人在学习Java基础时的笔记,仅供参考。如有错误,请指出,谢谢啦!目录【1】接口、包、类、异常等 一、接口:二.异常:【2】字符串一.StringBuilder:可变字符串类型:二.构造器:三.查找字符串中的字符/子字符串的位置四.截取子字符串的方法:【3】面向对象、数组一.面向过程:C,Basic,Pascal二.类:用来...
2018-12-03 17:20:36
611
原创 在Scala中val与var的区别
Scala有两种变量:val和var。val不能重新赋值了。var可以在它生命周期中被多次赋值。 【例子】scala> val a= 3a: Int = 3scala> a=434<console>:12: error: reassignment to val a=434 ^scala> var xzt ...
2018-12-02 20:13:13
562
原创 案例:使用XPath的爬虫(把某贴吧的照片保存到本地)
案例:使用XPath的爬虫现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地。# tieba_xpath.py#!/usr/bin/env python# -*- coding:utf-8 -*-import osimport urllibimport urllib2from lxml import etr...
2018-12-02 19:39:37
833
原创 案例:使用正则表达式的爬虫(爬取段子网的关键信息)
案例:使用正则表达式的爬虫现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了。现在我们进入段子网:http://duanziwang.com/根据网页的信息,我们可以爬取段子网的段子内容,代码如下:#-*- coding:utf-8 -*-import urllib2import reclass Spider: """ ...
2018-12-02 19:31:39
1601
原创 python:爬取贴吧的某个吧的网页信息
#-*-coding:utf-8-*-import urllib #负责url编码处理import urllib2import sysimport osif sys.getdefaultencoding() != 'utf-8': reload(sys) sys.setdefaultencoding('utf-8')def writeFile(html,...
2018-12-02 19:19:48
561
原创 用python爬取某个词条的源代码
简单例子:在百度中输入关键词,并爬取该网页的源代码#-*- coding:utf-8-*-import urllib #负责url编码处理import urllib2url = "http://www.baidu.com/s"word = {"wd":"冼焯庭"}word = urllib.urlencode(word) #转换成url编码格式(字符串)newurl...
2018-12-02 17:58:26
645
原创 用python写:完成一个员工管理系统 要求存储员工的工号、姓名、年龄、性别、工资 1、员工录入 2、查询员工信息 3、修改员工信息 4、删除 5、根据工号查看 6、退出
完成一个员工管理系统 要求存储员工的工号、姓名、年龄、性别、工资 1、员工录入 2、查询员工信息 3、修改员工信息 4、删除 5、根据工号查看 6、退出Emp.py#!/usr/bin/python # -*- coding: UTF-8 -*- print "你好,世界";class Emp: def __init__(...
2018-11-27 08:24:43
18018
1
原创 基于Hive安装MySQL
Hive安装(基于MySQL,用yum安装)--------------------------------------------- 1.验证Centos是否安装MySQL $>yum list installed | grep mysql 2.删除MySql $>yum –y remove mysql-libs.X86_64 ...
2018-11-14 16:07:24
311
原创 如何重新格式化Hadoop搭建的hbase环境
背景:其实我之前已经搭建好hbase环境了,但是后来发现我的数据块丢失了,所以我不得不重新格式化整个集群【1】删除各个集群的Hadoop/tmprm -r /home/michael/soft/hadoop/hadoop/tmp【2】先用zkServer.sh start 启动各个zookeeper,再用hadoop-daemon.sh start journalnode启动各个N...
2018-11-09 11:23:56
2578
原创 启动hbase时,Hmaster、HRegionServer进程有时候起不来
它出现的原因可能有是以下两点:第一,可能是各个主机的时间不同步【1】在各个主机上运行:date 命令,看看时间是否同步【2】如果时间不同步的话格式如下:# ntpdate -u 时间服务器IP 例子1:[root@master michael]# ntpdate -u time.windows.com10 May 15:26:28 ntpdat...
2018-11-07 16:14:11
1880
转载 Hadoop的110道简答题
1 简述hadoop的安装配置1.创建hadoop账户2.配置主机名3.配置hosts文件4.配置免密码登录5.安装和配置jdk、修改/etc/profile文件,配置环境变量6.上传和安装hadoop7.配置hadoop配置文件(hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-si...
2018-11-06 08:38:46
4830
原创 hadoop:安装手动HA
1.复制一份配置文件做HA (etc/hadoop) cp hadoop HA_hadoop2.修改配置文件hdfs-site.xml <property> <name>dfs.nameservices</name> <value>mycluster</value> </pro...
2018-11-02 18:22:39
357
原创 window下eclipse运行集群mr时错误总结
1.集群提交修改项 a.确保JobAPP提交至集群 解决方案:修改mapred-site.xml mapreduce.framework.name = yarn b.报重新连接:0.0.0.0/0.0.0.0:8032 解决方案: 修改yarn-site.xml文件 ...
2018-10-24 23:05:22
290
原创 在windows下搭建hadoop+eclipse开发环境
1.去官网下载hadoop-eclipse-plugin-2.7.3.jar(与你Hadoop版本一致) 2.把jar包导入在eclipse安装路径的plugins中 3.重启eclipse4.eclpise调整到map/reduce视图 5.配置hadoop安装目录 window-》preferences-》hadoop ma...
2018-10-19 09:17:28
568
1
原创 安装Centos 6.4提示找不到安装文件 The centos disc was not found in any of your drives.Please insert the centos d
【1】安装Centos 6.4提示找不到安装文件The centos disc was not found in any of your drives.Please insert the centos disc and press OK to retry 解决方法:把CD/DVD的IDE 连接打开 或者在设置中勾选 已连接...
2018-10-12 08:22:18
4193
1
原创 格式化namenode时:Error: JAVA_HOME is not set and could not be found.
1.格式化namenode命令:hdfs namenode -format 如果Error: JAVA_HOME is not set and could not be found. 修改hadoop-env.sh export JAVA_HOME=/home/hyxy/so...
2018-10-11 22:03:07
2772
1
原创 在Linux的Centos6.5搭建hadoop集群环境
Centos6.5搭建hadoop集群环境先概括一下整体思路安装centos6.5主机 关闭防火墙和selinux 配置网络 时间同步 ssh无密码登录设置 安装jdk 安装hadoop 启动 wordcount测试安装centos6.5主机使用vmware创建三台centos操作系统本人的三台主机名与IP如下:master 192.16...
2018-10-08 22:42:57
442
原创 Linux之shell的流程控制语句
一、if-else分支结构if语法格式:if 条件then逻辑块(通常都是些命令)fi写成一行:适用于终端写法If 条件; then 逻辑 ; fi If else语法格式:if 条件then逻辑块(通常都是些命令)else逻辑块fi流程控制语句 if-else分支结构If else-if else语法格式:if 条件...
2018-10-05 21:06:01
261
原创 Linux之Shell脚本编程
Shell概念 一、概念Shell 是一个用 C 语言编写的程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。Ken Thompson 的 sh 是第一种 Unix Shell,Windows Explorer 是一个典型的图形界面 Shell。二、Shell 脚本 一种为 shell 编写的脚本程序。业界所说的 shell 通常都是指 shell 脚...
2018-10-01 21:48:30
345
原创 linux之软件包的管理(rpm文件)
rpm: (1)查看软件是否安装 #rpm -q jdk #rpm -qa | grep jdk (2)卸载安装包 # rpm –e jdk 注意:如果其他软件包有依赖关系, 卸载时会产生提示信息, 可使用 --nodeps强行卸载 reg: rpm -e -...
2018-10-01 21:19:49
276
原创 Linux权限管理详解
当我们查询文件权限的时候,输入查看语句。查看文件权限的语句: 在终端输入:ls -l xxx.xxx (xxx.xxx是文件名) 那么就会出现相类似的信息,主要都是这些:drwxr-xr-x. 2 root root 4096 9月 26 19:21 test详情的第一个字段:共有10个字符 drwxr-xr-x第一个字符:表示文件的类型 如: ...
2018-10-01 20:55:23
712
原创 Linux的网络配置
【1】查看windows系统的默认网关在cmd中输入ipconfig其中默认网卡号:192.168.43.1 【2】在linux下查看网卡的信息命令 ifconfig可以看到 我们linux系统下的网卡信息:inet addr:192.168.43.200 网卡eth0的信息查看:cat /etc/sysconfig/network-scripts/if...
2018-10-01 20:21:06
294
原创 Linux的常用命令大全
【1】文件命名规则 1)除了/之外,所有字符都合法2)有些字符最好不要用,如空格符、制表 符、字符@#$&()-等3)避免使用.作为普通文件名的第一个字符。4)大小写敏感【2】命令格式 命令格式:命令 -选项 参数ex: ls -la /etc说明:1)当有多个选项时,可以写在一起2)两个特殊的目录 .和 .. ,分别代表当前目录和当前目录...
2018-09-30 11:40:13
216
原创 如何在注册时使用验证码注册(servlet源码)
【1】书写CheckCodeServlet类package com.hyxy.servlet.session;import java.awt.Color;import java.awt.Font;import java.awt.Graphics;import java.awt.image.BufferedImage;import java.io.IOException;impo...
2018-09-25 19:02:33
415
原创 servlet的生命周期
生命周期分为四个阶段:实例化,初始化 ,就绪,销毁阶段1:实例化 即:容器创建Servlet对象 时机1:容器收到请求后,创建servlet对象 时机2:容器启动后,立即创建servlet对象 Web.xml的<servlert> </servlet>中需要配置 &...
2018-09-19 19:22:30
481
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人