
爬虫
爱吃文字的鲸鱼
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫Task1-get和pose
学习get与post请求 GET和POST是HTTP协议中的两种发送请求的方法。HTTP是基于TCP/IP的关于数据如何在万维网中如何通信的协议。对于GET方式的请求,浏览器会把http header和data一并发送出去,服务器响应200(返回数据);而对于POST,浏览器先发送header,服务器响应100 continue,浏览器再发送data,服务器响应200 ok(返回数据)...原创 2019-03-01 10:07:10 · 343 阅读 · 0 评论 -
task2-正则表达式
地址'https://movie.douban.com/top250?start={0}&filter='.format(x*25) for x in range(10)抓取分析参考:https://zhuanlan.zhihu.com/p/53745513转载 2019-03-02 15:51:10 · 121 阅读 · 0 评论 -
task5安装selenium并学习
坑:记住将驱动.exe复制到python目录!!!!Selenium WebDriver使用IE浏览器可参考:https://blog.youkuaiyun.com/xc_zhou/article/details/80782742打开百度from selenium import webdriverbrowser = webdriver.Ie()browser.get("http://ww...转载 2019-03-05 21:33:29 · 123 阅读 · 0 评论 -
task3-爬虫
题目:学习beautifulsoup,并使用beautifulsoup提取内容。 使用beautifulsoup提取下面丁香园论坛的特定帖子的所有回复内容,以及回复人的信息。 丁香园直通点:晕厥待查——请教各位同仁 - 心血管专业讨论版 -丁香园论坛 。import urllib.request as refrom bs4 import BeautifulSoup as bf...原创 2019-03-03 16:28:47 · 192 阅读 · 0 评论 -
Task6 学习IP相关知识
学习什么是IPIP(Internet Protocol)计算机之间的通信地址为什么会出现IP被封访问频次过高,造成恶意攻击如何应对IP被封的问题伪造User-Agent爬取时注意时间间隔抓取西刺代理,并构建自己的代理池import requestsimport tracebackimport redef get_ip_list(resp): t...转载 2019-03-06 20:14:16 · 112 阅读 · 0 评论 -
Task4 学习xpath
题目:学习xpath,使用lxml+xpath提取内容。 使用xpath提取丁香园论坛的回复内容。from lxml import etreeimport requestsdef main(): url='http://www.dxy.cn/bbs/thread/626626' headers={'User-Agent':'Mozilla/5.0 (Windows N...原创 2019-03-04 19:32:31 · 103 阅读 · 0 评论 -
task7
from selenium import webdriverimport timefrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_condi...转载 2019-03-07 21:09:13 · 145 阅读 · 0 评论