- 博客(76)
- 资源 (6)
- 收藏
- 关注
原创 for循环检查linux中IP是否被占用
for循环检查linux中IP是否被占用:for i in 192.168.200.{130..140}do ping -c 2 -W 1 $i &> /dev/null if [ "$?" = "0" ];then echo $i " 正在被使用!" else echo $i ”空闲" fidone
2021-12-08 20:40:02
2389
原创 跨行业数据挖掘标准流程(CRISP-DM模型)基本步骤
CRISP-DM模型简介: CRISP-DM是Cross Industry Standard Process -Data Mining的缩写,是当今数据挖掘界通用的流行标准之一。它强调数据挖掘技术在商业中的应用,是用以管理并指导Data Miner 有效、准确的开展数据挖掘工作以期获得最佳挖掘成果的一系列工作步骤的标准规范。CRISP-DM模型的基本步骤包括:商业理解:
2021-11-12 11:33:44
6286
原创 log4j.properties
# Global logging configuration#log4j.rootLogger=INFO, stdoutlog4j.rootLogger=WARN, stdout#log4j.rootLogger=ERROR, stdout# Console output...log4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.layout=org.apache.log4j.PatternLayo
2021-10-09 11:24:55
157
原创 Kafka集群监控以及性能测试命令
kafka客户端安装路径cd /opt/hadoopclient/Kafka/kafka/bin监控kafka是否被使用netstat -anp | grep 21005 | awk '{print $5}' | awk -F':' '{print $1}' | sort | uniq -c netstat -anp | grep 21007 | awk '{print $5}' | awk -F':' '{print $1}' | sort | uniq -c ./clustercmd.
2021-09-26 11:10:24
664
原创 Linux操作系统shell脚本for循环示例
Linux操作系统shell脚本for循环示例示例01for a in {1..3}; do ssh root@192.168.11.$a cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys; done示例02for a in {2..3}; do scp /root/.ssh/authorized_keys root@192.168.11$a:/root/.ssh/authorized_keys ; done示
2021-08-23 11:41:55
527
原创 sparkStreaming同时访问kafka和hive
sparkStreaming同时访问kafka和hivepackage com.gcy.scala.spark.OnKafKaimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.serialization.StringDeserializerimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimpo
2021-08-23 11:11:16
165
原创 SparkOnHive本地运行访问hive(IDEA)
SparkOnHive本地运行访问hive(IDEA)1. 添加依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.11</artifactId> <version>${spark.version}</version>
2021-08-23 10:58:03
268
原创 Linux7&CentOS7环境配置以及集群环境配置
Linux7&CentOS7环境配置以及集群环境配置配置环境的图形化界面打开命令nmtuiEnter键进入图形化界面配置IP地址1、如下图(上下左右键移动选中光标)2、按Enter键进入下一个界面如下图(上下左右键移动选中光标)3、按Enter键进入下一个界面如下图(上下左右键移动选中光标)4、按Enter键进入下一个界面如下图(上下左右键移动选中光标)5、按Enter键进入下一个界面如下图(上下左右键移动选中光标)6、按Enter键进入下一个界面如
2021-06-09 10:37:01
125
原创 ntp时间同步
时间同步yum install -y ntpvi /etc/ntp.conf#注释掉下面的行 #server 0.centos.pool.ntp.org iburst #server 1.centos.pool.ntp.org iburst #server 2.centos.pool.ntp.org iburst #server 3.centos.pool.ntp.org iburst # 阿里云公网时间服务器 server ntp.aliyun.com # 当该节点丢失网络连
2021-06-03 15:02:02
106
原创 CentOS 6 yum安装软件报错 YumRepo Error
CentOS 6 yum安装软件报错 YumRepo Error报错信息如下图:报错原因CentOS 6自从2020年11月30日开始,官方不再维护,所以连带着原来的yum存储库也不能用了。解决方法官方给出了迁移后的存储库的链接地址,这时候我们只需要更新yum存储库的镜像列表,就可以正常使用了。...
2021-05-31 16:04:09
212
转载 Spark 基本架构及原理
Spark 基本架构及原理转载链接https://www.cnblogs.com/cxxjohnson/p/8909578.html Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了
2021-05-11 13:26:45
200
原创 spark原理简介
spark简介以及原理spark简介 spark是基于内存的分布式处理框架,它把要执行的作业拆分成多个任务,然后将任务分发到多个CPU进行处理,处理结果的中间数据存储在内存中,减少了数据处理过程中对硬盘的I/O操作,大大提升了处理效率。spark和MapReduce对比 spark相对于mr,性能上提高了100倍。 &
2021-05-11 10:15:02
991
原创 hive内置函数用法查询
hive内置函数查看系统内置函数:show functions;显示函数用法 eg:desc function upper;详细显示函数用法 eg:desc function extended upper常用函数:
2021-05-11 09:35:27
147
转载 RedHat Linux磁盘分区、格式化、挂载、卸载
RedHat Linux磁盘分区、格式化、挂载、卸载[root@CORPSE2010/]# fdisk -lDisk /dev/sda: 322.1 GB, 322122547200 bytes255 heads, 63 sectors/track, 39162 cylindersUnits = cylinders of 16065 * 512 = 8225280 bytesSector size (logical/physical): 512 bytes / 512 bytesI/O size
2021-05-08 22:17:07
3618
原创 hive优化
hive优化数据倾斜 数据倾斜是指在进行数据计算的时候,因为数据的分散度不够,导致大量数据集中到一台或几台服务器上计算,而这些数据的计算速度远远低于数据计算的平均速度,进而导致整个数据计算速度变慢。开发基本原则 尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段。 eg:select ... from Ajoin Bon A.userid = B.useridwhereA.userid>100and B.userid&l
2021-04-22 22:34:31
145
原创 hive语句的执行顺序
hive语句的执行顺序hive语句的执行顺序:fromonjoinwheregroup byhavingselectdistinctdistribute by /cluster bysort byorder bylimitunion /union all
2021-04-20 12:26:01
154
原创 hive内部表和外部表的区别
hive内部表和外部表的区别区别关键字: 内部表: 外部表:create/load 数据移到仓库目录 数据不移动drop 元数据和数据都删除 只删元数据查询表的类型desc formatted tableName;修改内部表为外部表alter table tableName set tblproperties('EXTERNAL'='TRUE');修改外部表为内部表alter table tableName set tbl
2021-04-19 11:33:07
147
原创 Hadoop集群启动WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using
Hadoop集群启动WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable问题原因Apache提供的hadoop本地库是32位的,而在64位的服务器需要自己编译64位的版本。解决方案下载对应了64位的版本,如果没有你要的版本就下载hadoop-native-64.tarhttp://dl.b
2021-04-07 08:50:03
204
原创 启动hadoop时,免密码登录引发的错误:The authenticity of host ‘node01 (192.168.80.11)’ can’t be established.
启动hadoop时,免密码登录引发的错误:The authenticity of host ‘node01 (192.168.80.11)’ can’t be established.解决该问题出现上述报错,主要是4台服务器间的免密码登录出现了问题。在搭建hadoop环境的时候,简单实现了node01可以免密码登录node02,node03,node04,可是虚拟机之后再重新启动后,启动的时候,就出现了上述的问题。这次,配置了4台服务器间的免密码登录。配置步骤:进入相应目录,删除原来生
2021-04-06 22:37:11
1558
原创 Linux系统下集群安装jdk
Linux系统下集群安装jdk下载Linux下的jdk安装包下载链接网址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html将本地电脑上的jdk包上传到Linux上将该文件转移到 /home 目录下命令: mv jdk-8u141-linux-x64.tar.gz /home/解压该文件在当前目录命令:tar -zxvf jdk-8u141-linu
2021-04-05 15:32:04
330
1
原创 远程链接服务器工具SecureCRT设置默认字体、编码、背景色
远程链接服务器工具SecureCRT设置默认字体、编码、背景色选项=>全局选项=>常规=>默认会话=>编辑默认设置=>外观,如下图最后确定完成设置选项=>全局选项=>终端=>外观=>高级=>颜色方案=>编辑,如下图最后确定,完成背景和字体颜色设置...
2021-04-05 13:27:44
362
原创 Linux下常用的快捷键
Linux下常用的快捷键Ctrl + z :退出Linux下的pingTab :在Linux系统下的命令补全Ctrl + Alt :鼠标光标退出Linux的命令窗口
2021-04-04 20:48:55
214
原创 maven下载安装以及配置setting.xml修改远程和本地仓库地址+IDEA配置本地库
maven下载安装以及配置setting.xml修改远程和本地仓库地址+IDEA配置本地库1. maven库下载安装下载网址:http://maven.apache.org/解压下载文件下,即可完成maven安装配置maven本地环境变量,如下图测试maven本地环境变量是否成功,管理员窗口输入mvn -version,可知已经配置成功。2. maven配置setting.xml修改远程和本地仓库地址打开maven解压文件目录,找到settings.xml,如下图打开setti
2021-04-03 19:55:48
913
原创 删除U盘分区成为唯一区
删除U盘分区成为唯一区按下键盘的“微软窗口图标+R”打开运行对话框,输入命令CMD打开系统的命令提示符窗口按下图以此输入命令格式化U盘,恢复U盘的分区成唯一区
2021-02-22 20:21:54
102
原创 卸载Python时报错:No Python 3.9.0 installation was detected
卸载Python时报错:No Python 3.9.0 installation was detected卸载Python时报错出现报错:No Python 3.9.0 installation was detected,无法卸载Python。此时可以按照下面的步骤来解决:打开C:\Users\Administrator\AppData\Local\Programs;删除Python文件夹;打开控制面板>> 删除程序,找到Python,右键点击更改;点击Repair (Uninst
2021-01-17 19:50:03
1729
3
原创 python开发工具Jupyter Notebook在Win10系统上的安装与使用
python开发工具Jupyter Notebook在Win10系统上的安装与使用利用Anaconda安装Jupyter Notebook1. Anaconda下载 点击Get Started进入 点击Download Anaconda installers 如图下载需要的系统的版本的Anaconda。2. win10系统 Anaconda安装 在下载目录下找到下载的Anaconda,win10系统需要的版本样式如图 双击安装 4. 打开jupy
2020-12-30 18:50:58
329
原创 2020年之后版本pycharm官方汉化
2020年之后版本pycharm官方汉化1. 打开pycharm,左上角File找到Settings2. 点击Setting进入后找到插件Plugins,在搜索框右上角点击Marketplace,在搜索框搜索Chinese,找到第二个,点击install3. install完成后点击 Restart IDE和Restart4. 重启完成后可以看到已经完成了汉语话了5. 取消汉化步骤同样的位置,文件==>设置6. 点击设置进入后同样找到插件Plugins,在搜索框右上角点击inst
2020-12-28 23:12:14
596
原创 Python的全局安装源配置
Python的全局安装源配置配置Python的全局安装源的作用: 在开发的过程中我们需要安装很多的模块或者库用以辅助我们的开发,而配置安装源可以在我们安装新的模块或者库的时候下载更快。 配置Python的全局安装源的命令语法:pip install 模块名配置Python的全局安装源的步骤:@在电脑键盘上看住win + r@输入 %appdata% 进入文件管理界面@在该路径下右击新建文件夹命名为 pip 并进入@新建一个txt文本文档,打开@将一下代码复制粘贴(每一行必须顶
2020-12-27 23:22:24
1419
1
原创 python在Win10系统上的解释器部署
python在Win10系统上的解释器部署1. Win10系统上的Python解释器下载 Python解释器就是将Python代码解释成能直接操作计算机的机器语言,然后机器语言在指导计算机工作,机器语言是计算机能只接识别的语言,是计算机能听懂的命令。 Python官网:https://www.python.org/ 2. 下载流程登入Python官网后点击 Downloads。 点击 Downloads后,点击windows(可根据自己电脑系统选择不同的选项,windows是针对W
2020-12-27 23:19:36
210
原创 Python开发工具pycharm安装
Python开发工具pycharm安装下载pycharm 百度pycharm登入官网,如图 安装pycharm 双击红箭头程序完成安装
2020-12-27 23:16:10
152
原创 http协议获取splunk上数据并写入hive
http协议获取splunk上数据并写入hive-依赖<dependency> <groupId>com.squareup.okhttp3</groupId> <artifactId>okhttp</artifactId> <version>3.0.0...
2020-03-25 12:01:31
552
原创 git常用命令,初始化配置和代码提交以及下载
git常用命令,代码提交和下载用户配置git config --global user.name “用户名”git config --global user.email “用户邮箱”代码提交git initgit add .git commit -u “备注内容”git push -u origin master代码下载git clone http://gitlab...
2020-03-19 10:31:31
256
原创 解决mysql数据库表锁死
原因:多个进程同时执行,因争夺资源而造成的一种互相等待。常见于程序循环操作数据库,建议采用批量操作。解决方案: show full processlist kill 锁死进行,kill + id(或者重启mysql)查看state找到锁死进程kill掉。eg: kill 250244一定要检查造成死锁的代码,并修改,否则还会造成锁死。...
2020-03-18 18:10:56
663
原创 spark链接ldap获取数据(thumbnailPhoto属性获取以及转成base64图片格式存储)
spark链接ldap获取数据依赖 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-distcp</artifactId> <version>2...
2020-03-18 14:44:13
598
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人