- 博客(11)
- 收藏
- 关注
原创 Hadoop学习笔记(HDFS和MapReduce)
HDFS命令1、 -ls: 显示目录信息:hadoop fs -ls /显示根目录的目录信息2、-mkdir:在HDFS上创建目录:hadoop fs -mkdir -p /hadoop/a3、-appendToFile:追加一个文件到已经存在的文件末尾hadoop fs -appendToFile test.txt /hadoop/a/b.txt4、-cat:显示文件内容:hadoop fs -cat /hadoop/a/b.txt5、-copyFromLocal:从本地文件系统
2021-05-30 20:43:40
165
1
原创 hadoop学习笔记2(集群搭建)
1、搭建Hadoop集群准备操作1、关闭防火墙:systemctl stop firewalld.servicesystemctl disable firewalld.service(永久关闭)2、关闭selinuxvim /etc/sysconfig/selinuxSELINUX=disabled3、内部网络的配置BOOTPROTO = staticONBOOT = yesGATEWAY、IPADDR、NETMASK三个输入好之后保存并退出让刚才配置的网络生效service
2021-05-30 20:11:39
180
原创 hadoop学习笔记1(介绍)
Hdoop介绍(HDFS、MapReduce、hive)异步复制:占用集群一倍的宽带,不需要占用额外的存储空间,运维较为简单,但是主机群崩了,就全崩了同步复制:需要写一份Remote WAL,占用集群两倍的宽带,一倍用来实现异步复制,一倍用来写Remote WAL,Remote会占用一倍WAL的存储空间,但若主集群崩了,只需要回放Remote WAL可复原,运维复杂且需要知道如何手动切换主备集群Hadoop常用命令 ——(1)格式:Hadoop fs -命令 目标eg:Hadoop
2021-05-30 20:11:00
186
2
原创 爬虫学习3
数据提取1、响应内容的分类结构化数据都是以标签形式进行数据存储json数据(高频出现)数据(提取)承载量较多解析方式:1、json模块2、re模块3、jsonpath模块(json模块的补充)######## jasponpath模块使用场景:多层嵌套的复杂字典直接提取数据安装:pip install jsonpath使用方法:form jsonpath import jsonpathret = jsonpath(a,'jsonpath语法规则字符串')语法:常用语法:
2021-05-30 20:07:28
138
原创 爬虫学习笔记2(requests模块)
二、requests模块1、requests模块简介官方文档:https://2.pythonrequests.org/zh_CN/latest/index.htmlrequests模块发送get请求import requestsurl = 'http:www.baidu.com'response = requests.get(url)print(response.text)因为有反爬,所以这个不能运行,得看下方的headers相关内容来解决2、response响应对象2.(1)、re
2021-04-16 14:07:09
299
原创 爬虫基础学习笔记1
一、爬虫是什么1、爬虫概念模拟浏览器,发送请求,获得响应2、爬虫的作用1、数据采集2、软件测试3、12306抢票4、投票5、网络安全3、爬虫的分类3.(1)、按被爬取网站的数量的不同**通用爬虫:**目标无上限,从一个网站链接到所有的相关的网站聚焦爬虫:专门抓取某一个或者某一类网站数据3.(2)、以是否获取数据为目的功能性爬虫:以实现某一功能为目的,不获取数据数据增量爬虫:以获取数据为目的3.(3)、根据url地址和对应页面内容是否变化基于url地址变化、内容也变化的数据增
2021-03-31 22:57:47
116
原创 matplotlib学习笔记2
scatter散点图n = 1024 #设置随机生成的点的个数X = np.random.normal(0,1,n)Y = np.random.normal(0,1,n)#随机生成的的点的坐标T = np.arctan2(X,Y)#设置点的颜色plt.scatter(X,Y,s=75,c=T,alpha=0.5)#设置散点图中点的大小,颜色,透明的等plt.xlim((-1.5,1.5)) #设置x轴的刻度大小plt.ylim((-1.5,1.5)) #设置y州的刻度
2021-03-27 12:50:38
124
原创 matplotlib学习笔记1
导入matplotlib库import matplotlib.pyplot as pltimport numpy as np基本用法1、制作所需图像及设置其线条的颜色,间隔,形式,以及为该线条命名: plt.plot()2、显示图像:plt.show()最基本应用案例:x = np.linspace(-9,6,45)y= 2*x+1plt.plot(x,y)plt.show()figure图像运用:x = np.linspace(-3, 3, 50)y1 = 2*x +
2021-03-25 20:02:19
162
原创 seaborn学习
导入seaborn库一般将seaborn库和其他库一起导入import seaborn as snsimport numpy as npimport pandas an pdimport matplotlib.pyplot as plt使用set()语句绘制seaborn默认绘图def sinplot(flip=1): x = np.linspace(0, 14, 100) for i in range(1, 7): plt.plot(x, np.sin(x
2021-03-24 18:55:20
82
原创 pandas学习
导入pandas库import numpy as npimport pandas as pd导入csv或者xlsx文件df = pd.DataFrame(pd.read_csv('name.csv',header=1))df = pd.DataFrame(pd.read_excel('name.xlsx'))数据表查看1、维度查看 (查看行数和列数)df.shape2、查看索引,数据类型和室内存信息df.info()3、查看数据框每一列的数据类型df.dtype()4、
2021-03-24 18:44:52
197
原创 numpy学习笔记
一、安装numpy导入numpy库import numpy as np二、使用创建数组1、arrayimport numpy as nparray_1 = np.array([1,2,3,4]) array_2 = np.array([[1,2,3],[4,5,6],[7,8,9]]) 结果:2、zerosarray_3 = np.zeros(5)结果例子:a = np.random.randint(10,size
2021-03-23 23:12:53
88
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅