- 博客(41)
- 收藏
- 关注
原创 sqoop基本操作
导入数据导入到HDFS// \代表在shell窗口中换行bin/sqoop import \// 连接的url--connect jdbc:mysql://hadoop102:3306/mydb \// 用户名--username root \// 密码--password 123456 \// 要导哪个表的数据--table staff \// 将数据导入到hdfs的哪个路径--target-dir /company \// 如果目标目录存在就删除--delete-tar
2020-07-14 15:30:58
410
原创 Zookeeper的API案例
maven项目中的porn文件<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version> </dependency> <dependency> <groupId>org.apach
2020-07-12 21:39:51
321
1
原创 Flume企业面试题
怎么实现Flume数据传输的监控?使用第三方框架Ganglia实时监控Flume。Flume的Source,Sink,Channel的作用?你们Source是什么类型?1 作用1 Source组件是专门用于收集数据的,可以出来各种类型的数据,各种格式的日志数据,报告avro,exec,jms,spooling,directory,netcat,syslog,http,legacy2 Channel组件对采集到的数据进行缓存,可以存放在Memory或File中3 Sink组件是用于把数据发送到目的
2020-07-12 00:12:38
239
原创 Flume的安装和基本使用
安装部署1 将apache-flume-1.7.0-bin.tar.gz解压,2 将flume/conf下的flume-env.sh.template改为flume-env.sh,配置信息:export JAVA_HOME=/opt/module/jdk1.8.0_144flume手册案例一:监控端口数据 (netcat为source,logger为sink)# example.conf: A single-node Flume configuration# Name the componen
2020-07-11 16:13:56
427
原创 Hadoop一些基本配置参数调优
HDFS参数调优hdfs-site.xmldfs.namenode.handler.count=20 * log2(Cluster Size),比如集群规模为8台时,此参数设置为60YARN参数调优yarn-site.xmla)yarn.nodemanager.resource.memory-mb表示该节点上YARN可使用的物理内存总量,默认是8192(MB),注意,如果你的节点内存资源不够8GB,则需要调减小这个值,而YARN不会智能的探测节点的物理内存总量。b)yarn.scheduler.m
2020-07-10 14:53:37
202
原创 LZO创建索引
配置:使的hadoop支持LZO压缩1 将hadoop-lzo-0.4.20.jar 放入hadoop-2.7.2/share/hadoop/common/,然后同步到集群2 core.xml添加配置信息,并且同步<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration><property
2020-07-10 14:14:18
1260
原创 Shell工具
cutcut的工作就是“剪”,具体就是在文件中负责剪数据比如:cut -d " " -f 1 test.txt说明:将文件的每一行,以空格为分隔符,提取第一列数据sed流编辑器,简单说就是将数据一行一行从文件中取出,然后对其进行编辑,输出到控制台,不改变原文件案例:// 在第二行加入kan nv的字符串sed "2a kan nv" sed.txt // 删除所有kang的字符串sed '/kang/d' sed.txt// 替换(g表示全局替换)sed 's/wo/ni/g'
2020-07-10 14:08:21
245
原创 从零开始的hadoop集群搭建
克隆虚拟机配置好的Linux虚拟机-> 管理 -> 克隆1 删除网卡,复制物理地址:vim /etc/udev/rules.d/70-persistent-net.rules删除eht0的那一行,将下一行的eth0改为eth1**2 配置网络:**vim /etc/sysconfig/network-scripts/ifcfg-eth0(删除UUID)IPADDR=192.168.1.101 设置ipONBOOT=yesNM_CONTROLLED=yesB00TPROTO
2020-07-07 22:56:37
1185
原创 RDD行动算子
reduce函数说明:聚集RDD中所有元素,先聚合分区内数据,然后聚合分区间数据val reduceResult: Int = rdd.reduce(_+_)collect函数说明:以数组Array的形式返回数据集的所有元素rdd.collect().foreach(println)count返回RDD元素的个数val countResult: Long = rdd.count()first函数说明:返回RDD中的第一个元素take函数说明:返回一个由RDD的前n个元素组成的数
2020-07-04 00:57:08
691
1
原创 rdd案例:排行的top3计算
需求:统计出每一个省份每个广告被点击数量排行的Top3package com.baidu.exerimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDobject Top3 { def main(args: Array[String]): Unit = { // 1516609143867 6 7 64 16 // 时间戳 省份 城市 用户 广告 val
2020-07-03 17:39:57
711
原创 Spark中RDD转换算子以及案例
1 Spark核心编程Spark计算框架为了能对数据进行高并发和搞吞吐的处理,封装了三大数据结构,分别是:RDD:弹性分布式数据集累加器:分布式共享只写变量广播变量:分布式共享只读变量1.1 RDD代表是一个弹性的,不可变,可分区,里面的元素可并行计算的集合弹性:存储的弹性:内存与磁盘的自动切换容错的弹性:数据丢失可以自动修复计算的弹性:计算出错重试机制分片的弹性:可根据需要重新分片分布式: 数据存储在大数据集群不同节点上数据集: RDD封装了计算逻辑,并不保存数据数据抽象:
2020-07-03 15:29:17
706
原创 Spark中核心组件的基本知识
1 运行架构Spark框架的核心是一个计算引擎,采用标准的master-slave的结构,图中的Driver表示master,负责整个集群的作业任务调度,Executor则是slave,负责实际执行任务2 核心组件2.1 DriverSpark驱动器节点,用于执行Spark任务中的main方法,负责实际代码的执行工作简单理解就是Driver是驱使整个应用运行起来的程序2.2 Executor是工作节点中的JVM进程,负责具体任务,如果有Executor节点发生故障或者崩溃,会讲出错任务调度
2020-06-25 17:03:53
693
原创 Spark部署
1 Spark概述Spark是一种基于内存的快速,通用,可扩展的大数据分析计算引擎1.1 核心模块Spark Core:提供了Spark最基础与最核心的功能Spark SQL:是Spark用来操作结构化数据的组件。通过Spark SQL,用户可以使用SQL或者Apche Hive版本的HQL来查询数据Spark Streaming:Spark Streaming是Spark平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的APISpark MLlib:一个机器学习算法库。不仅
2020-06-25 10:57:11
228
原创 Scala知识点
变量和数据类型数据类型Scala是完全面向对象的语言,只有任意值对象(AnyVal)和任意引用对象(AnyRef)类型转换强制类型转换var a : Int = 10Var b : Byte = a.toByte流程控制for循环1, 基本语法object ScalaLoop { def main(args: Array[String]): Unit = { for ( i <- Range(1,5) ) { // 范围集合 p
2020-06-24 00:21:02
270
原创 将图片合成PDF
https://blog.youkuaiyun.com/weixin_42081389/article/details/100734926import img2pdfimport osdef from_photo_to_pdf(photo_path): # 1、生成地址列表 photo_list = os.listdir(photo_path) photo_list = [...
2020-02-03 01:04:57
374
原创 linux配置知识点
mac地址位置vim /etc/udev/rules.d/70-persistent-net.rules(删除第一个PCI,改网卡为eth0,复制mac地址)修改ip位置vim /etc/sysconfig/network-scripts/ifcfg-eth0修改本机名vim /etc/sysconfig/network修改映射表vim /etc/hosts...
2020-01-15 01:32:51
185
原创 hadoop完全分布式(云服务器版)
使用的是三台云服务器,两台腾讯云,一台华为云,使用的系统为centos6.8遇到的坑有点多,所以记录下来,防止自己忘记,也给大家一个参考前期准备hadoop和jdk的tar解压jdk和hadoop的环境变量配置vim /etc/profile##JAVA_HOMEexport JAVA_HOME=/opt/module/jdk1.8.0_144export PATH=$PA...
2019-12-11 12:09:34
324
原创 Linux版Mysql的使用
首先下载server和client的rpm文件安装客户端rpm -ivh MySQL-client-5.5.54-1.linux2.6.x86_64.rpm安装服务器端rpm -ivh MySQL-server-5.5.54-1.linux2.6.x86_64.rpm注意:安装服务器端可能会出现yum安装了旧版本的GPG keys造成的不成功用此指令:rpm -ivh MySQL...
2019-12-01 16:48:21
155
原创 本地的tomcat项目部署到服务器上(腾讯云,阿里云,华为云)
本测试的案例用的IDEA编写的,tomcat版本为8.5.49,jdk为11(注意,jdk版本太低会出现问题,servlet写的代码不能运行,只能显示静态的界面【不知道什么原因,需要继续的寻找】)第一步,将项目导出为war包file -> Project Structure ->Artifacts->[你的项目名]:war在服务器上安装jdk11和tomcat服务器...
2019-11-30 14:52:54
2651
原创 eclipse中没有javaEE的透视图
1.在Eclipse中菜单help选项中选择install new software选项2.在work with 栏中输入 Juno - http://download.eclipse.org/releases/juno3.拉到后面选择Web, XML, Java EE and OSGi Enterprise Development选项,然后选择 Eclipse Java EE Dev...
2019-09-04 10:50:30
13580
4
原创 配置centos的mongodbl数据库的一些坑
远程连接的时候,配置信息要非常注意,包括设置远程的绑定的IP改为全局,配置的时候网上很多的设置安全验证都有问题因加上(不然会出现重启失败)security: authorization: enabledsetParameter: authenticationMechanisms: SCRAM-SHA-1连接的时候,要保证你的用户和数据库的一致性(初学者设置的时候),不然会...
2019-08-30 21:03:30
280
原创 anoconda实现python2与3的快速切换
确保本身已经安装了anconda中python3的版本,并且已经设置好了环境变量然后切换到cmd模式下,执行conda create -n python27 python=2.7 anaconda安装好以后,执行切换命令activate python27回退到python3命令deactivate python27python27为版本号,也可以使用其他版本号...
2019-08-28 19:19:55
225
原创 gevent的基本使用
import geventimport timefrom gevent import monkeymonkey.patch_all()def kang(): for i in range(5): print(i) time.sleep(5)def dong(url): print(url) # time.sleep(2)if...
2019-08-24 13:53:30
1697
原创 selenium的基本使用
导模块import selenium # 测试框架from selenium import webdriver #模拟浏览器调用浏览器操作driver = selenium.webdriver.Firefox() #调用driver.get(url) # 向服务器发行请求driver.page_source #(界面来源) 注意不是一个成员函数,而是一个变量,返回页面的h...
2019-08-24 13:49:46
116
原创 json使用loads时出现json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes
最好的方法是先用dumps进行编码。json.dumps(): 对数据进行编码。json.loads(): 对数据进行解码。import jsonimport redata1 = { "no": 1, "name": "Runoob", "url": "http://www.runoob.com"}json_str = json.dumps(data1)...
2019-08-24 13:49:11
6068
2
原创 selenium中OSError: [WinError 6] 句柄无效。
可以先选择关闭driver的时候 , 使用driver.quit()代替 driver.close()close:只会关闭焦点所在的当前窗口quit:会关闭所有关联的窗口所以推荐使用quit 。
2019-08-23 15:37:08
1465
原创 python 测试框架selenium不能调用的问题
selenium3.x开始需要在python的运行目录增加一个程序: geckodriver.exe装在你的python运行目录下github链接:https://github.com/mozilla/geckodriver/releases然后启动就可以了...
2019-08-23 15:22:56
676
1
原创 vim 设置tab为四个空格
1.打开(新建)Vim配置文件:vim ~/.vimrc2.在Vim配置文件中添加:set ts=4set sts=4set expandtab
2019-08-23 14:11:50
221
原创 解决远程访问阿里云的mysql服务器问题
解决不能远程访问mysql的问题首先需要开放阿里云的安全组端口:mysql的默认端口是3306,在控制台添加安全组规则,使的3306的端口开放然后把mysql上的配置改一下,使他能接受连接不然会出现:1130 - Host XXX is not allowed to connect to this MySQL servermysql -uroot -p密码show databas...
2019-08-22 13:07:49
168
原创 mysql的密码问题(You must reset your password using ALTER USER statement before executing this statement.)
刚安装时的初始密码grep "password" /var/log/mysqld.log 2019-08-20T13:32:53.895624Z 1 [Note] A temporary password is generated for root@localhost: x?f<u<kpk9Fy可以用这个密码开始登陆mysql登陆以后需要马上更改密码,不然会报错alt...
2019-08-22 11:32:09
1702
原创 阿里云centos安装MySQL
用于下次出问题时安装安装教程:https://www.cnblogs.com/jepson6669/p/9013652.html密码设置方案https://www.cnblogs.com/codeman-hf/p/9836425.html
2019-08-20 21:55:51
103
原创 hdu1269 迷宫城堡
Problem Description为了训练小希的方向感,Gardon建立了一座大城堡,里面有N个房间(N<=10000)和M条通道(M<=100000),每个通道都是单向的,就是说若称某通道连通了A房间和B房间,只说明可以通过这个通道由A房间到达B房间,但并不说明通过它可以由B房间到达A房间。Gardon需要请你写个程序确认一下是否任意两个房间都是相互连通的,即:对于任意的i和j...
2019-08-12 19:24:04
127
原创 146. 【NOIP2015】信息传递
146. 【NOIP2015】信息传递有 nn 个同学(编号为 11 到 nn )正在玩一个信息传递的游戏。在游戏里每人都有一个固定的信息传递对象,其中,编号为 ii 的同学的信息传递对象是编号为 TiTi 的同学。游戏开始时,每人都只知道自己的生日。之后每一轮中,所有人会同时将自己当前所知的生日信息告诉各自的信息传递对象(注意:可能有人可以从若干人那里获取信息, 但是每人只会把信息告诉一个人...
2019-08-12 18:37:20
192
转载 ubuntu网易云打不开
输入命令:sudo gedit /usr/share/applications/netease-cloud-music.desktop然后就有一个被打开的文件,找到Exec一项,在%U前添加–no-sandbox注意,前后都要有空格。如图:...
2019-07-24 21:00:10
444
原创 笔趣网小说试爬
import requestsfrom lxml import etreeurl = "http://www.cits0871.com/booktxt/20768/"file_name = '第一序列.txt'res = requests.get(url).content.decode('gbk')content = etree.HTML(res)url = content.xpat...
2019-06-14 16:45:21
3015
转载 python中docx模板合并多个word文档
转载链接:https://stackoverflow.com/questions/24872527/combine-word-document-using-python-docxfrom docx import Document# 合并文档的列表files = ['1.docx', '2.docx']#合并操作def combine_word_documents(files): ...
2019-06-14 14:54:04
10974
1
原创 奈氏准则和香农公式
影响失真的程度的因素- 码元的传输速率- 信号的传输距离- 噪声干扰- 传输媒体质量- 码间串扰- 接收端收到的信号失去了码元之间清晰界限的现象奈氏准则:- 在理想低通(无噪声,带宽受限)条件下,为了避免码间串扰,极限码元传输速率为2W Baud,W是信道带宽,单位是Hz。- 公式:理想低通信道下的极限数据传输率=2Wlog2V(b/s)香农定理(也称奈奎斯特定理):-...
2019-05-19 12:15:36
16046
4
转载 python第三方库mssql
连接sql server数据库#服务器名,账户,密码,数据库名connect = pymssql.connect('DESKTOP-2THAEPB\ZZULI', 'sa', 'zzuli427898', 'zzuli')cursor = connect.cursor() # 创建一个对象sql = "insert into test (pro)values('103')" # 往tex...
2019-05-18 11:04:12
383
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人