stupidTomA-优快云博客

原创 ps参数解析

1.查看ps的帮助文档man ps 命令即可2.for exampleUSER: 进程拥有者PID： pid%CPU：占用的cpu百分比%MEM：占用的内存使用率VSZ：占用的虚拟内存大小RSS：占用的内存大小TTY：运行的中段号吗STAT：进程状态 D：不可中断 R: 运行中 S：休眠中 T：暂停中 Z：僵尸进程 W：没有足够的内存可分配 <：...

2020-10-29 22:37:56 497 1

top命令看到的是实时的进程信息1.第一行表示 top的刷新使用时间是21：47：46，系统启动时间是3min，当前系统是 2个用户，最近1分钟，五分钟，十五分钟内的平均负载是 0.45， 0.67， 0.322.第二行表示当前系统有177个进程，1个在运行，176个睡眠状态，0个停止，0个僵尸进程3.第三行是cpu信息，us 表示当前系统占用的cpu百分比，sy表示内核占用的cpu百分比，ni表示改变过优先级的进程占用的cpu百分比，id表示空闲cpu百分比，wa表示I/O等待百分

2020-10-29 22:21:14 1298

原创 java.lang.ClassNotFoundException: Class mapreduce.WordcountMapper not found hadoop

环境： hadoop2.7问题：idea远程连接hadoop，运行mapreduce的程序的时候出错分析：可以看到日志里面打了一行jar没有提交什么的2020-09-12 14:40:38,391 INFO [org.apache.hadoop.mapreduce.JobSubmitter] - Submitting tokens for job: job_1599887687347_00092020-09-12 14:40:38,481 INFO [org.apache.hadoop

2020-09-12 15:04:12 788

原创 java FileInputStream流的一些方法

源码里面是使用装饰模式，封装流，然后把每次读取的字节放入一个byte数组中，通过管理该数组实现下面的方法的测试文件 112345678q123iuyweqgahsd1. 第一个方法 read（）public static void main(String[] args) throws Exception{ File file = new File("E:\\workspace\\flink_demo\\data\\1"); FileInputStr

2020-08-29 16:19:57 395

原创 hadoop安装hive步骤

hadoop2.7hive2.31.配置hive-env.sh# Set HADOOP_HOME to point to a specific hadoop install directoryexport HADOOP_HOME=/home/kz/env/hadoop2.7# Hive Configuration Directory can be controlled by:export HIVE_CONF_DIR=/home/kz/env/hive2.3/conf# Folder

2020-06-26 18:22:06 310

原创 Linux单机hadoop

1.工具jdk1.8hadoop2.72.配置/etc/profileexport JAVA_HOME=/home/kz/env/jdk1.8export PATH=$PATH:${JAVA_HOME}/binexport HADOOP_HOME=/home/kz/env/hadoop2.7export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin3.配置hadoop配置文件3.1hadoop-env.shexport JAV

2020-06-17 20:12:25 168

原创 ubuntu

1.ubuntu修改键盘的类别sudo dpkg-reconfigure keyboard-configuration2.放大缩小控制端ctrl - ctrl +

2020-06-15 22:44:25 172

原创查看linux文件大小

1. df -h /rootFilesystem Size Used Avail Use% Mounted on/dev/vda1 50G 8.1G 39G 18% /可以看到root文件夹挂载到/dev/vda1这个磁盘上2. 查看文件的大小du -sh * 查看每个文件大小* 号也可以替换成文件夹或者文件[root@hadoo...

2020-04-13 21:41:13 384

原创查看linux内存

1. ps -aux | sort -k 4n | tail -n 10 对使用内存排序或者ps -aux | sort -k 3n | tail -n 10 对cpu进行排序USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMANDroot 2323 0.0 0.1...

2020-04-13 21:32:32 341

原创 SparkSQL自定义聚合函数

官网上介绍的自定义聚合例子http://spark.apache.org/docs/latest/sql-getting-started.html#aggregationsSparkSQL的聚合函数支持count(), countDistinct(), avg(), max(), min()等，但是肯定不满足，所以需要用户自定义函数第一种弱类型定义 extend UserDefi...

2020-03-31 21:55:56 338

原创 SparkSql 查询

import org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject SparkSqlDemo { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppName("demo").setM...

2020-03-31 21:36:37 363

原创 RDD DataFrame DataSet 相互转化的方法

import org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject Transform { case class People(name:String,age:Int) def main(args: Array[String]): Unit = { val sparkConf =...

2020-03-30 21:12:08 277

原创 idea中使用sparkSQL

1.配置jdk 1.82.配置scala scala-2.12.113.下载spark，要和上面的Scala相对应，不然idea里面的醒目启动的时候会报错4.下载hadoop 2.7.7 https://archive.apache.org/dist/hadoop/common/，配置HADOOP_HOME，并下载hadoop版本对应的winutils.exe 覆...

2020-03-29 15:22:21 841

原创 Spark Yarn 提交流程

spark-submit --class wordcount --master spark://aml168:7077 --driver-memory 800M --executor-memory 600M -...

2020-02-14 11:27:26 335

原创非root用户之间免密登录

1.A机器获取没有设置密码的ssh-keygenssh-keygen -t rsa -P '' -f /root/.ssh/id_rsa2.将A机器的公钥id_rsa.pub发送到B机器的用户test上去，文件位置是/home/test/.ssh，如果.ssh不存在，需要创建,然后将接收到的文件追加到authorized_keys文件里面去可以使用expect 进行机器命令交互3....

2019-12-30 15:52:40 823

原创 shell expect

第一种方式复制文件到远程#!/bin/bash expect -c " set timeout 10; spawn scp -o StrictHostKeyChecking=no userhome/.ssh/id_rsa.pub ipaddr$userhome/.ssh/id_rsa.ipaddr; expect { ...

2019-12-26 11:41:04 284

原创记录学习spark遇到的问题

1.搭建好StandarOne之后，写了一个例子，将jar包上传到节点上去，运行任务19/11/26 14:52:50 ERROR TaskSetManager: Task 1 in stage 0.0 failed 4 times; aborting jobException in thread "main" org.apache.spark.SparkException: Job abo...

2019-11-26 15:12:56 1006

原创 FAQ

1.spark 环境变量要设置JAVA_HOME变量否则运行spark-shell 会提示找不到路径或者没有java环境

2019-10-28 19:13:51 202

原创无法ping通github

问题：可以上网访问GitHub，但是在git clone的时候拉不下来项目,然后去ping github.com的时候，请求连接超时解决方法：1.配置hosts2.关闭电脑的防火墙参考了下面的这篇，但是丢包率有50%，最后关闭了防火墙之后才没有丢包https://blog.youkuaiyun.com/u010377383/article/details/79365049...

2019-10-21 20:14:29 813

原创 mvn Error: JAVA_HOME not found in your environment.

问题：执行maven 编译的时候错误，提示这个，但是执行 java javac命令都有原因：当前用户下没有JAVA_HOME 变量解决方法：在环境变量里面的用户变量添加JAVA_HOME 变量，在这个用户下添加变量环境就好了有的答案是说以root权限执行编译就OK，反正就是一个用户权限问题，普通用户找不到，然后root用户就可以了...

2019-10-17 17:41:55 832

原创 lxml + xpath 的简单爬虫

工具包：python的requests ，lxml，xpath ，pandas包IDE：Anaconda代码：import requestsfrom lxml import etreeimport pandas as pd# 将获取的数据写入文件中def write_to_csv(*dd): ll = [] for i in dd: ll....

2019-08-15 21:56:45 203

原创 Anaconda 更换浏览器要求输入token

问题：开启anaconda的 jupyter notebook之后，更换浏览器开启的是ie浏览器，想要更换另外一种浏览器解决方法：1前往anaconda的安装目录，可以从anaconda的图标属性里面找到目录，前往Anaconda3\Scripts 该目录下，然后在这个路径下打开命令，cmd 然后输入jupyter notebook list ，会获取一系列包含token的url2...

2019-08-06 21:34:01 752

转载 WebService怎么查看天气预报的接口?

https://blog.youkuaiyun.com/aqsunkai/article/details/51711087

2018-09-19 14:44:42 545

stupidTomA的博客