- 博客(5)
- 收藏
- 关注
原创 一些简单的linux命令总结
编辑文件时,默认进入的时非编辑状态,用“i”进入编辑模式,保存且退出用“:wq”,不保存退出用“:q”,强制退出则需要在这两个命令后多加一个“!1.1 ls命令———显示目录下的内容及相关属性信息(默认查看当前目录)1.4 mkdir命令———创建目录。1.5 touch命令———创建文件。1.6 cp命令———复制文件或目录。1.7 mv命令———移动文件或目录。1.8 rm命令———删除文件或目录。1.2 cd命令———切换目录。..———当前目录的上级目录。1.9 vi 编辑器。
2023-10-06 00:24:26
101
1
原创 Python爬取网页简单知识梳理
在使用requests库进行网页抓取时,首先要做的就是发送HTTP请求。具体来说,可以使用requests.get()方法来发送GET请求,并接收响应内容。,在解析大型文档时速度非常快,归档也特别好,且提供了简单的转换方法来将数据转换为python数据类型,从而使文件操作更容易。Python中有很多专门用于网络爬虫开发的库,比如requests、beautifulsoup4、lxml等等。例题:查找class="line-4"行中a标签中src内容。定义一个URL 地址;发送HTTP 请求;
2023-10-05 14:46:49
83
原创 Hadoop的集群搭建与部署
起初 "export JAVA_HOME="前面自带了一个“#”,“#”的作用是屏蔽的意思,但是我们需要配置且后续还要启动,所以需要把“#”去掉。进入配置文件时,用 i 进入insert 模式(也就是编写模式),编写完成后我们再使用esc按键退出编写模式回到查看模式。所需要注意的是,分发命令中我使用的是我虚拟机创建目录下的路径。首先我们进入我们的虚拟机,然后进入hadoop目录中,可以使用ls查看文件下的配置文件。下载好JDK安装包后,解压到我们所创建的文件夹中,接着我们需要配置环境变量。
2023-09-24 16:35:28
198
1
原创 利用网络爬虫来获取我们所需要的信息
随着网络的迅速发展,成为大量信息的载体,我们如何有效地提取并利用这些信息呢?那么就不得不提到一个概念——“网络爬虫”
2023-09-17 13:37:18
1656
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人