
爬虫学习
文章平均质量分 53
记录点滴学习
_Tunan
I am coding in 优快云.
展开
-
爬虫学习(四)——使用代理IP
文章目录一、为什么使用代理IP?二、使用步骤1.查询代理IP2.程序测试首先ip代理程序如下:使用ip代理进行网页访问3.遇到的问题1)http协议问题2)网络连接问题一、为什么使用代理IP?使用自己的IP频繁访问一个网站,总会让自己觉得不安,并且该网站的管理人员也不希望看到这样频繁的同一个的IP访问,因此为了使我们双方和谐一点,通常第一步的做法就是在你的程序中加入延迟time.sleep(5)。但是正常来说,同一个ip不能短时间内重复访问同一网站,因此我们就想把自己伪装成别的ip,因此使用代理ip原创 2021-06-27 21:07:00 · 1431 阅读 · 0 评论 -
爬虫学习(三)
爬虫实战——爬取豆瓣TOP250电影信息爬取内容所需的库包括:bs4、re、urllib.request、urllib.error。其中bs4库主要使用他的BeautifulSoup函数对抓取部分进行一个限定,re库对抓取具体条目进行一个正则化表达,方便迭代搜索,urllib库是打开指定的url。具体内容参见前两篇帖子,或可以直接学习(copy)代码来运行:from bs4 import BeautifulSoupimport reimport urllib.requestimport urll原创 2021-05-27 18:31:50 · 188 阅读 · 0 评论 -
爬虫学习(二)
爬虫学习(二)——BeautifulSoup库及Re库BeautifulSoup首先需要pip install bs4这个库,然后再bs4里面的BeautifulSoup(靓汤)是从网页抓取数据的利器。首先实例化一个对象,代码如下soup = BeautifulSoup(html,"html.parser")item = soup.find_all("div", class_="item")print(item)至于find什么内容,可以根据自己网页上F12后,鼠标放置在相应代码块上进行查看原创 2021-05-26 20:20:17 · 197 阅读 · 0 评论 -
爬虫学习(一)
爬虫学习——urllib库以及headers查看爬虫就是模拟自己是一个浏览器,去到网页上爬取想要的信息。爬虫程序一般分为三步,爬取网页,解析数据,保存数据。url指网址;介绍一个库Urllib它可以打开网页、对网页内容进行二进制编码、获取网页的特定信息等import urllib.requestimport urllib.parse#GET方式response = urllib.request.urlopen('http://www.baidu.com')print(response.r原创 2021-05-25 16:36:49 · 216 阅读 · 0 评论