自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 模拟登陆并抓取丁香园全部回复

大实战: # -*- coding: utf-8 -*- """ Created on Thu May 16 13:25:11 2019 @author: 38418 """ import requests from lxml import etree from selenium import webdriver import time headers = { 'User-Agent'...

2019-05-17 23:51:40 305

原创 selenium 和 IP代理池

3.1 selenium selenium: Selenium 是一个自动化测试工具,利用它可以 驱动浏览器 执行特定的动作,如点击、下拉等操作(模拟浏览器操作) 同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬 Selenium支持非常多的浏览器,如 Chrome、Firefox、PhantomJS等 浏览器对象的初始化 并将其赋值为 browser 对象。接下来,我们要做的就是调用 ...

2019-05-15 21:55:00 84663 2

原创 解析工具的使用——Beautiful Soup、XPath

2.1 Beautiful Soup Beautiful Soup借助网页的结构和属性等特性来解析网页 其在解析时 实际上依赖解析器,它 除了支持Python标准库中的HTML解析器外,还支持一些第三方解析器(比如lxml)——我选择使用lxml ...

2019-05-13 20:34:11 1811

原创 Task1 请求和正则

通过 requests的get方法可以发送请求 给某个URL 任务1.1 (1) 以下代码即可 发送请求给百度URL 并且获得 URL响应的 内容 import requests page = requests.get('http://www.baidu.com/') print (page.content) print (requests.get('http://www.baidu.com/'...

2019-05-11 22:27:55 288

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除