- 博客(23)
- 收藏
- 关注
原创 ps参数解析
1.查看ps的帮助文档man ps 命令即可2.for exampleUSER: 进程拥有者PID: pid%CPU: 占用的cpu百分比%MEM: 占用的内存使用率VSZ: 占用的虚拟内存大小RSS: 占用的内存大小TTY: 运行的中段号吗STAT: 进程状态 D:不可中断 R: 运行中 S: 休眠中 T:暂停中 Z:僵尸进程 W:没有足够的内存可分配 <:...
2020-10-29 22:37:56
446
1
原创 top参数解析
top命令看到的是实时的进程信息1.第一行 表示 top的刷新使用时间是21:47:46,系统启动时间是3min,当前系统是 2个用户,最近1分钟,五分钟,十五分钟内的平均负载是 0.45, 0.67, 0.322.第二行表示 当前系统有177个进程,1个在运行,176个睡眠状态,0个停止,0个僵尸进程3.第三行是cpu信息,us 表示当前系统占用的cpu百分比,sy表示内核占用的cpu百分比,ni表示改变过优先级的进程占用的cpu百分比,id表示空闲cpu百分比,wa表示I/O等待百分
2020-10-29 22:21:14
1138
原创 java.lang.ClassNotFoundException: Class mapreduce.WordcountMapper not found hadoop
环境: hadoop2.7问题:idea远程连接hadoop,运行mapreduce的程序的时候出错分析:可以看到 日志里面打了一行jar没有提交什么的2020-09-12 14:40:38,391 INFO [org.apache.hadoop.mapreduce.JobSubmitter] - Submitting tokens for job: job_1599887687347_00092020-09-12 14:40:38,481 INFO [org.apache.hadoop
2020-09-12 15:04:12
746
原创 java FileInputStream流的一些方法
源码里面是使用装饰模式,封装流,然后把每次读取的字节放入一个byte数组中,通过管理该数组实现下面的方法的测试文件 112345678q123iuyweqgahsd1. 第一个方法 read()public static void main(String[] args) throws Exception{ File file = new File("E:\\workspace\\flink_demo\\data\\1"); FileInputStr
2020-08-29 16:19:57
368
原创 hadoop安装hive步骤
hadoop2.7hive2.31.配置hive-env.sh# Set HADOOP_HOME to point to a specific hadoop install directoryexport HADOOP_HOME=/home/kz/env/hadoop2.7# Hive Configuration Directory can be controlled by:export HIVE_CONF_DIR=/home/kz/env/hive2.3/conf# Folder
2020-06-26 18:22:06
271
原创 Linux单机hadoop
1.工具jdk1.8hadoop2.72.配置/etc/profileexport JAVA_HOME=/home/kz/env/jdk1.8export PATH=$PATH:${JAVA_HOME}/binexport HADOOP_HOME=/home/kz/env/hadoop2.7export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin3.配置hadoop配置文件3.1hadoop-env.shexport JAV
2020-06-17 20:12:25
137
原创 ubuntu
1.ubuntu修改键盘的类别sudo dpkg-reconfigure keyboard-configuration2.放大 缩小控制端ctrl - ctrl +
2020-06-15 22:44:25
140
原创 查看linux文件大小
1. df -h /rootFilesystem Size Used Avail Use% Mounted on/dev/vda1 50G 8.1G 39G 18% /可以看到root文件夹挂载到/dev/vda1这个磁盘上2. 查看文件的大小du -sh * 查看每个文件大小* 号也可以替换成文件夹或者文件[root@hadoo...
2020-04-13 21:41:13
352
原创 查看linux内存
1. ps -aux | sort -k 4n | tail -n 10 对使用内存排序或者ps -aux | sort -k 3n | tail -n 10 对cpu进行排序USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMANDroot 2323 0.0 0.1...
2020-04-13 21:32:32
301
原创 SparkSQL自定义聚合函数
官网上介绍的自定义聚合例子http://spark.apache.org/docs/latest/sql-getting-started.html#aggregationsSparkSQL的聚合函数支持count(), countDistinct(), avg(), max(), min()等,但是肯定不满足,所以需要用户自定义函数第一种 弱类型定义 extend UserDefi...
2020-03-31 21:55:56
296
原创 SparkSql 查询
import org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject SparkSqlDemo { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppName("demo").setM...
2020-03-31 21:36:37
322
原创 RDD DataFrame DataSet 相互转化的方法
import org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject Transform { case class People(name:String,age:Int) def main(args: Array[String]): Unit = { val sparkConf =...
2020-03-30 21:12:08
249
原创 idea中使用sparkSQL
1.配置jdk 1.82.配置scala scala-2.12.113.下载spark, 要和上面的Scala相对应,不然idea里面的醒目启动的时候会报错4.下载hadoop 2.7.7 https://archive.apache.org/dist/hadoop/common/,配置HADOOP_HOME,并下载hadoop版本对应的winutils.exe 覆...
2020-03-29 15:22:21
782
原创 Spark Yarn 提交流程
spark-submit --class wordcount --master spark://aml168:7077 --driver-memory 800M --executor-memory 600M -...
2020-02-14 11:27:26
296
原创 非root用户之间免密登录
1.A机器获取没有设置密码的ssh-keygenssh-keygen -t rsa -P '' -f /root/.ssh/id_rsa2.将A机器的公钥id_rsa.pub发送到B机器的用户test上去,文件位置是/home/test/.ssh,如果.ssh不存在,需要创建,然后将接收到的文件追加到authorized_keys文件里面去可以使用expect 进行机器命令交互3....
2019-12-30 15:52:40
760
原创 shell expect
第一种方式 复制文件到远程#!/bin/bash expect -c " set timeout 10; spawn scp -o StrictHostKeyChecking=no userhome/.ssh/id_rsa.pub ipaddr$userhome/.ssh/id_rsa.ipaddr; expect { ...
2019-12-26 11:41:04
243
原创 记录学习spark遇到的问题
1.搭建好StandarOne之后,写了一个例子,将jar包上传到节点上去,运行任务19/11/26 14:52:50 ERROR TaskSetManager: Task 1 in stage 0.0 failed 4 times; aborting jobException in thread "main" org.apache.spark.SparkException: Job abo...
2019-11-26 15:12:56
911
原创 无法ping通github
问题:可以上网访问GitHub,但是在git clone的时候拉不下来项目,然后去ping github.com的时候,请求连接超时解决方法:1.配置hosts2.关闭电脑的防火墙参考了下面的这篇,但是丢包率有50%,最后关闭了防火墙之后才没有丢包https://blog.youkuaiyun.com/u010377383/article/details/79365049...
2019-10-21 20:14:29
741
原创 mvn Error: JAVA_HOME not found in your environment.
问题:执行maven 编译的时候错误,提示这个,但是执行 java javac命令都有原因:当前用户下没有JAVA_HOME 变量解决方法:在环境变量里面的用户变量添加JAVA_HOME 变量,在这个用户下添加变量环境就好了有的答案是说以root权限执行编译就OK,反正就是一个用户权限问题,普通用户找不到,然后root用户就可以了...
2019-10-17 17:41:55
766
原创 lxml + xpath 的简单爬虫
工具包:python的requests ,lxml,xpath ,pandas包IDE:Anaconda代码:import requestsfrom lxml import etreeimport pandas as pd# 将获取的数据写入文件中def write_to_csv(*dd): ll = [] for i in dd: ll....
2019-08-15 21:56:45
170
原创 Anaconda 更换浏览器要求输入token
问题:开启anaconda的 jupyter notebook之后,更换浏览器开启的是ie浏览器,想要更换另外一种浏览器解决方法:1前往anaconda的安装目录,可以从anaconda的图标属性里面找到目录,前往Anaconda3\Scripts 该目录下,然后在这个路径下打开命令,cmd 然后输入jupyter notebook list ,会获取一系列包含token的url2...
2019-08-06 21:34:01
719
转载 WebService怎么查看天气预报的接口?
https://blog.youkuaiyun.com/aqsunkai/article/details/51711087
2018-09-19 14:44:42
517
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人