自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Hadoop学习笔记(HDFS和MapReduce)

HDFS命令1、 -ls: 显示目录信息:hadoop fs -ls /显示根目录的目录信息2、-mkdir:在HDFS上创建目录:hadoop fs -mkdir -p /hadoop/a3、-appendToFile:追加一个文件到已经存在的文件末尾hadoop fs -appendToFile test.txt /hadoop/a/b.txt4、-cat:显示文件内容:hadoop fs -cat /hadoop/a/b.txt5、-copyFromLocal:从本地文件系统

2021-05-30 20:43:40 165 1

原创 hadoop学习笔记2(集群搭建)

1、搭建Hadoop集群准备操作1、关闭防火墙:systemctl stop firewalld.servicesystemctl disable firewalld.service(永久关闭)2、关闭selinuxvim /etc/sysconfig/selinuxSELINUX=disabled3、内部网络的配置BOOTPROTO = staticONBOOT = yesGATEWAY、IPADDR、NETMASK三个输入好之后保存并退出让刚才配置的网络生效service

2021-05-30 20:11:39 180

原创 hadoop学习笔记1(介绍)

Hdoop介绍(HDFS、MapReduce、hive)异步复制:占用集群一倍的宽带,不需要占用额外的存储空间,运维较为简单,但是主机群崩了,就全崩了同步复制:需要写一份Remote WAL,占用集群两倍的宽带,一倍用来实现异步复制,一倍用来写Remote WAL,Remote会占用一倍WAL的存储空间,但若主集群崩了,只需要回放Remote WAL可复原,运维复杂且需要知道如何手动切换主备集群Hadoop常用命令 ——(1)格式:Hadoop fs -命令 目标eg:Hadoop

2021-05-30 20:11:00 186 2

原创 爬虫学习3

数据提取1、响应内容的分类结构化数据都是以标签形式进行数据存储json数据(高频出现)数据(提取)承载量较多解析方式:1、json模块2、re模块3、jsonpath模块(json模块的补充)######## jasponpath模块使用场景:多层嵌套的复杂字典直接提取数据安装:pip install jsonpath使用方法:form jsonpath import jsonpathret = jsonpath(a,'jsonpath语法规则字符串')语法:常用语法:

2021-05-30 20:07:28 138

原创 爬虫学习笔记2(requests模块)

二、requests模块1、requests模块简介官方文档:https://2.pythonrequests.org/zh_CN/latest/index.htmlrequests模块发送get请求import requestsurl = 'http:www.baidu.com'response = requests.get(url)print(response.text)因为有反爬,所以这个不能运行,得看下方的headers相关内容来解决2、response响应对象2.(1)、re

2021-04-16 14:07:09 299

原创 爬虫基础学习笔记1

一、爬虫是什么1、爬虫概念模拟浏览器,发送请求,获得响应2、爬虫的作用1、数据采集2、软件测试3、12306抢票4、投票5、网络安全3、爬虫的分类3.(1)、按被爬取网站的数量的不同**通用爬虫:**目标无上限,从一个网站链接到所有的相关的网站聚焦爬虫:专门抓取某一个或者某一类网站数据3.(2)、以是否获取数据为目的功能性爬虫:以实现某一功能为目的,不获取数据数据增量爬虫:以获取数据为目的3.(3)、根据url地址和对应页面内容是否变化基于url地址变化、内容也变化的数据增

2021-03-31 22:57:47 116

原创 matplotlib学习笔记2

scatter散点图n = 1024 #设置随机生成的点的个数X = np.random.normal(0,1,n)Y = np.random.normal(0,1,n)#随机生成的的点的坐标T = np.arctan2(X,Y)#设置点的颜色plt.scatter(X,Y,s=75,c=T,alpha=0.5)#设置散点图中点的大小,颜色,透明的等plt.xlim((-1.5,1.5)) #设置x轴的刻度大小plt.ylim((-1.5,1.5)) #设置y州的刻度

2021-03-27 12:50:38 124

原创 matplotlib学习笔记1

导入matplotlib库import matplotlib.pyplot as pltimport numpy as np基本用法1、制作所需图像及设置其线条的颜色,间隔,形式,以及为该线条命名: plt.plot()2、显示图像:plt.show()最基本应用案例:x = np.linspace(-9,6,45)y= 2*x+1plt.plot(x,y)plt.show()figure图像运用:x = np.linspace(-3, 3, 50)y1 = 2*x +

2021-03-25 20:02:19 162

原创 seaborn学习

导入seaborn库一般将seaborn库和其他库一起导入import seaborn as snsimport numpy as npimport pandas an pdimport matplotlib.pyplot as plt使用set()语句绘制seaborn默认绘图def sinplot(flip=1): x = np.linspace(0, 14, 100) for i in range(1, 7): plt.plot(x, np.sin(x

2021-03-24 18:55:20 82

原创 pandas学习

导入pandas库import numpy as npimport pandas as pd导入csv或者xlsx文件df = pd.DataFrame(pd.read_csv('name.csv',header=1))df = pd.DataFrame(pd.read_excel('name.xlsx'))数据表查看1、维度查看 (查看行数和列数)df.shape2、查看索引,数据类型和室内存信息df.info()3、查看数据框每一列的数据类型df.dtype()4、

2021-03-24 18:44:52 197

原创 numpy学习笔记

一、安装numpy导入numpy库import numpy as np二、使用创建数组1、arrayimport numpy as nparray_1 = np.array([1,2,3,4]) array_2 = np.array([[1,2,3],[4,5,6],[7,8,9]]) 结果:2、zerosarray_3 = np.zeros(5)结果例子:a = np.random.randint(10,size

2021-03-23 23:12:53 88

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除