爬虫是通过代码编写的程序并让它自动化的在网站上爬取资源并将资源储存起来,可以形象解释为一张蜘蛛网上掉落一只虫爬虫代码就像蜘蛛去网上扑食食物。
-## 爬虫能做什么
用Python编写爬虫
爬虫实验
我们先做一个在网上爬取图片的实验,然后讲爬取到的数据储存到数据桶里,
实验工具:服务器一台 、云端数据桶一台、pc一台、pycharm
FIR 首先对想爬取的图片在大脑里定下来,例如爬取邓紫棋高清图在百度上搜索邓紫棋图面按F12查看原代码,找到自己目标图片的URL 输入CTRL + U 新的标签页 输入CTRL + F 搜索刚刚查到的URL 选择清晰度最高的objURL
SED 实验先用一个编译软件将要编写的Python代码 注将URL后面的word=**** 删掉 换成如图所示+ word 具体如图代码所示
保存退出
租一台云服务器
在华为云官网租一台centos 系统的服务器 步骤如图所示 创立私有云
用CRT连接虚拟机的ip 得到如图所示:
在系统中新建文件夹
进入Python**文件夹下 新建文档spider.py 用vi编辑器编辑
为spider.py修改权限 让文件可执行
如图所示文件就爬取成功了
使用OBS将存储照片
1.创建云端OBS桶
2.安装ECS obsutil工具
终端里登录ECS云服务器,安装wget命令行工具,执行下列命令出现 complete则说明安装成功
使用wget命令根据步骤2中复制的obsutil链接地址下载obsutil安装包 “obsutil_linux_amd64.tar.gz”
wget https://obs-community.obs.cn-north1.myhuaweicloud.com/obsutil/current/obsutil_linux_amd64.tar.gz
3.配置obsutil
使用tar命令将obsutil_linux_amd64.tar.gz 压缩包解压到当前目录,并进入到解压后的 obsutil_linux_amd64 目录,可以看到具有可执行权限的obsutil文件(绿色)
创建OBS存储访凭证。在对象存储控制台右上角选择“用户名”,在出现的下拉列表中点 击“我的凭证”,在跳转的页面中选择“管理访问密钥”,可以看到当前无访问秘钥
访问https://developer.huaweicloud.com/endpoint查询OBS终端节点地址,打开页 面后定位到“对象存储服务OBS”,确定本实验所在的“华北-北京一”的终端节点 (Endpoint),记录下此Endpoint的值
初始化obsutil工具配置,根据下面的命令,将步骤8中下载的CVS文件中的AK和SK 密钥、以及步骤9中查询到的endpoint分别对应填入,运行obsutil初始化命令并确认成 功
./obsutil config -i=your_ak -k=your_sk -e=your_endpoint
确认obsutil工具与云端对象存储服务OBS的连通性
./obsutil ls –s
4.使用obsutil上传图片
将实验2中爬虫程序抓取的图片使用obsutil工具全部上传到OBS中,命令及截图如 下。命令中的“obsutil cp”为复制的意思,第一个绝对路径为本地需要上传的文件夹,第二个 以“obs://”开头的地址为远端OBS地址,“gem”为 OBS存储桶名称
/root/obsutil_linux_amd64/obsutil cp /root/Python_Image_Downloads/images obs://gem -f -r -vmd5 -flat -u -include=’*.jpg’
5.确认上传结果
在对象存储OBS桶gem中查看上传后的情况
实验成功! 本实验是本人亲手做得 内容可能会有点杂 可能会有点遗漏 或者是问题 希望大家能基于留言