
网络机器人
Python学习中的进阶者
不断地学习才能完善自己
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
网络蜘蛛:8.Selenium 爬取淘宝商品实战
Selenium安装 pip install selenium pip install pyquery 自动运行浏览器 from selenium import webdriver browser = webdriver.Chrome('D:\APP\chromedriver.exe') browser.get("https://www.baidu.com/s?wd=python") ...原创 2020-07-12 16:45:12 · 349 阅读 · 0 评论 -
学习笔记:网络机器人7.1Scrapy实战 ——爬取新闻
新建项目 scrapy startproject news items.py 打开scrapy框架自动创建的items.py items.py 修改items.py 定义spider 在项目根目录运行命令行命令(注意是否已经cd news进入到项目根目录): scrapy genspider news163 news.163.com ...原创 2020-07-11 15:04:27 · 433 阅读 · 2 评论 -
学习笔记:网络机器人6.1 python使用you-get爬取网站视频
1. 下载安装you-get模块(以windows系统为例): pip install -i https://pypi.tuna.tsinghua.edu.cn/simple you-get 2. 指令:you-get -i [URL] 视频基础信息介绍,用来展示集中不同的清晰度 you-get -i https://www.bilibili.com/video/av80128995 3. 指令 you-get -o/-O 指定输出文件夹(-o)和文件名字(-O) you-get -o C:\Users原创 2020-07-10 13:43:48 · 425 阅读 · 0 评论 -
学习笔记:网络机器人:7.0Scrapy
引擎(Scrapy Engine) 调度器(Scheduler) 下载器(Downloader) 蜘蛛(Spiders) 项目管道(Item Pipeline) 爬取流程 针对每个URL, Scheduler->Downloader->Spider-> 如果返回的是新的URL, 就会返回Scheduler 如果是需要保存的数据, 则会被放到item pipeline里面 Wi...原创 2020-07-07 12:55:21 · 151 阅读 · 0 评论 -
学习笔记:网络机器人6.0python爬取多类型音乐步骤详解
目标网址:酷狗音乐-谁伴我闯荡 爬虫逻辑: 【找到要获取特定音乐的url】>>>【找到该资源链接的url】>>>【封装获取音乐的函数】>>>【封装下载音乐的函数】 注意: 这两个获取url的顺序是和之前获取url的过程是反过来的,以往是获取外部页面的url后进入内部页面的url,然后再获取该页面的信息。 但是下载音乐(定向爬取数据),首先是要确定获取音乐的url(通过浏览器输入后点击可以直接播放–内部页面数据),然后再找其上一层的url(资源链接的url原创 2020-07-06 12:43:23 · 1779 阅读 · 0 评论 -
学习笔记:网络机器人5.1JSON解析之爬取腾讯新闻
1. 寻找json接口 在目标页面点击鼠标右键进行’检查’,然后选择’Network’,再点击’网页刷新’按钮,接着在右下区域内弹出的内容上选择具有pull_url标识的文件,最后点击’Preview’选项即可。 https://news.qq.com/ 比如就以当前这个页面来看,获取这个json的接口就是点击’Preview’旁边的’Headers’,选择’Request URL:'后面的网址,就为请求数据的接口。如下 Request URL: https://i.match.qq.com/ninja/f原创 2020-07-05 18:50:51 · 227 阅读 · 0 评论 -
学习笔记:网络机器人5.0JSON格式数据基础
概念 JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格 式。它基于 ECMAScript (欧洲计算机协会制定的js规范)的一个子集,采用完 全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和 生成,并有效地提升网络传输效率。 {“a”: 1, “b”: [1, 2, 3]} 数组转化为JSON import json # 导入json包 data =原创 2020-07-05 18:41:15 · 322 阅读 · 0 评论 -
学习笔记:网络机器人:4.0.Python获取图片
目标网址:全景网山水壁纸 网页分析 还是和之前爬取文字信息一致,需要进行网页信息的解析,获得图片数据所在的地址,然后进行图片的下载 分析网页后发现所需要的图片的url在【a.item.lazy img】中 封装第一个函数,获取图片的url 首先是导入相关的库,然后进行函数的编写,这里的第一个函数的内容和之前的几乎一样 import requests from bs4 import BeautifulSoup from uuid import uuid1 import os def get_image原创 2020-06-30 19:48:03 · 244 阅读 · 0 评论 -
学习笔记:网络机器人:3.1实习僧网站信息
https://www.shixiseng.com/interns?page=1&keyword=python 实战解析 步骤一、建立for循环爬取前20页的内容 首先、查看翻页URL的信息,找规律 发现只有page=后面的数值是不一样的,所以构造for循环(先获取少一点的页面),如下 import requests # 导入网络请求模块 from bs4 import Beautif...原创 2020-06-28 15:36:23 · 240 阅读 · 0 评论 -
学习笔记:网络机器人3.0最简单的网络机器人
利用request输出首页内容 import requests # 导入网络请求模块 headers = {"User-Agent":"xxx"} # 定制请求头 html = requests.get('http://xiaohua.zol.com.cn/lengxiaohua/1.html',headers = headers) # 找到网址,get请求 print(html....原创 2020-04-27 14:24:16 · 291 阅读 · 0 评论 -
学习笔记:网络机器人1.前端入门
爬虫是在互联网是执行的程序。 最大的网络是万维网www, 我们的爬虫只是参与其中很小的一部分 爬虫本质上就是HTTP客户端请求。 爬虫怎么做? 1.找到URL 2.构造请求包(headers,cookies,data) 3.发送请求,接收响应 4.数据清洗,提取需要信息 爬虫工具 1.发起请求 requests 2.处理响应 bs4 xpath re 3.存储数据 本地存储,数据库存储 pip install requests pip install bs4 网页三剑客 HTML CSS JavaScr原创 2020-06-23 14:53:37 · 230 阅读 · 0 评论