weixin_53220531-优快云博客

原创 Hadoop学习笔记（HDFS和MapReduce）

HDFS命令1、 -ls: 显示目录信息:hadoop fs -ls /显示根目录的目录信息2、-mkdir：在HDFS上创建目录：hadoop fs -mkdir -p /hadoop/a3、-appendToFile：追加一个文件到已经存在的文件末尾hadoop fs -appendToFile test.txt /hadoop/a/b.txt4、-cat：显示文件内容：hadoop fs -cat /hadoop/a/b.txt5、-copyFromLocal：从本地文件系统

2021-05-30 20:43:40 165 1

原创 hadoop学习笔记2（集群搭建）

1、搭建Hadoop集群准备操作1、关闭防火墙：systemctl stop firewalld.servicesystemctl disable firewalld.service(永久关闭)2、关闭selinuxvim /etc/sysconfig/selinuxSELINUX=disabled3、内部网络的配置BOOTPROTO = staticONBOOT = yesGATEWAY、IPADDR、NETMASK三个输入好之后保存并退出让刚才配置的网络生效service

2021-05-30 20:11:39 180

原创 hadoop学习笔记1（介绍）

Hdoop介绍（HDFS、MapReduce、hive）异步复制：占用集群一倍的宽带，不需要占用额外的存储空间，运维较为简单，但是主机群崩了，就全崩了同步复制：需要写一份Remote WAL，占用集群两倍的宽带，一倍用来实现异步复制，一倍用来写Remote WAL，Remote会占用一倍WAL的存储空间，但若主集群崩了，只需要回放Remote WAL可复原，运维复杂且需要知道如何手动切换主备集群Hadoop常用命令 ——(1)格式：Hadoop fs -命令目标eg：Hadoop

2021-05-30 20:11:00 186 2

原创爬虫学习3

数据提取1、响应内容的分类结构化数据都是以标签形式进行数据存储json数据（高频出现）数据（提取）承载量较多解析方式：1、json模块2、re模块3、jsonpath模块（json模块的补充）######## jasponpath模块使用场景：多层嵌套的复杂字典直接提取数据安装：pip install jsonpath使用方法：form jsonpath import jsonpathret = jsonpath(a,'jsonpath语法规则字符串')语法：常用语法：

2021-05-30 20:07:28 138

原创爬虫学习笔记2(requests模块)

二、requests模块1、requests模块简介官方文档：https://2.pythonrequests.org/zh_CN/latest/index.htmlrequests模块发送get请求import requestsurl = 'http:www.baidu.com'response = requests.get(url)print(response.text)因为有反爬，所以这个不能运行，得看下方的headers相关内容来解决2、response响应对象2.(1)、re

2021-04-16 14:07:09 299

原创爬虫基础学习笔记1

一、爬虫是什么1、爬虫概念模拟浏览器，发送请求，获得响应2、爬虫的作用1、数据采集2、软件测试3、12306抢票4、投票5、网络安全3、爬虫的分类3.(1)、按被爬取网站的数量的不同**通用爬虫：**目标无上限，从一个网站链接到所有的相关的网站聚焦爬虫：专门抓取某一个或者某一类网站数据3.(2)、以是否获取数据为目的功能性爬虫：以实现某一功能为目的，不获取数据数据增量爬虫：以获取数据为目的3.(3)、根据url地址和对应页面内容是否变化基于url地址变化、内容也变化的数据增

2021-03-31 22:57:47 116

原创 matplotlib学习笔记2

scatter散点图n = 1024 #设置随机生成的点的个数X = np.random.normal(0,1,n)Y = np.random.normal(0,1,n)#随机生成的的点的坐标T = np.arctan2(X,Y)#设置点的颜色plt.scatter(X,Y,s=75,c=T,alpha=0.5)#设置散点图中点的大小，颜色，透明的等plt.xlim((-1.5,1.5)) #设置x轴的刻度大小plt.ylim((-1.5,1.5)) #设置y州的刻度

2021-03-27 12:50:38 124

原创 matplotlib学习笔记1

导入matplotlib库import matplotlib.pyplot as pltimport numpy as np基本用法1、制作所需图像及设置其线条的颜色，间隔，形式，以及为该线条命名: plt.plot()2、显示图像：plt.show()最基本应用案例：x = np.linspace(-9,6,45)y= 2*x+1plt.plot(x,y)plt.show()figure图像运用：x = np.linspace(-3, 3, 50)y1 = 2*x +

2021-03-25 20:02:19 162

原创 seaborn学习

导入seaborn库一般将seaborn库和其他库一起导入import seaborn as snsimport numpy as npimport pandas an pdimport matplotlib.pyplot as plt使用set()语句绘制seaborn默认绘图def sinplot(flip=1): x = np.linspace(0, 14, 100) for i in range(1, 7): plt.plot(x, np.sin(x

2021-03-24 18:55:20 82

原创 pandas学习

导入pandas库import numpy as npimport pandas as pd导入csv或者xlsx文件df = pd.DataFrame(pd.read_csv('name.csv',header=1))df = pd.DataFrame(pd.read_excel('name.xlsx'))数据表查看1、维度查看（查看行数和列数）df.shape2、查看索引，数据类型和室内存信息df.info()3、查看数据框每一列的数据类型df.dtype()4、

2021-03-24 18:44:52 197

原创 numpy学习笔记

一、安装numpy导入numpy库import numpy as np二、使用创建数组1、arrayimport numpy as nparray_1 = np.array([1,2,3,4]) array_2 = np.array([[1,2,3],[4,5,6],[7,8,9]]) 结果：2、zerosarray_3 = np.zeros(5)结果例子：a = np.random.randint(10,size

2021-03-23 23:12:53 88

weixin_53220531的博客