- 博客(4)
- 收藏
- 关注
原创 模拟登陆并抓取丁香园全部回复
大实战: # -*- coding: utf-8 -*- """ Created on Thu May 16 13:25:11 2019 @author: 38418 """ import requests from lxml import etree from selenium import webdriver import time headers = { 'User-Agent'...
2019-05-17 23:51:40
305
原创 selenium 和 IP代理池
3.1 selenium selenium: Selenium 是一个自动化测试工具,利用它可以 驱动浏览器 执行特定的动作,如点击、下拉等操作(模拟浏览器操作) 同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬 Selenium支持非常多的浏览器,如 Chrome、Firefox、PhantomJS等 浏览器对象的初始化 并将其赋值为 browser 对象。接下来,我们要做的就是调用 ...
2019-05-15 21:55:00
84663
2
原创 解析工具的使用——Beautiful Soup、XPath
2.1 Beautiful Soup Beautiful Soup借助网页的结构和属性等特性来解析网页 其在解析时 实际上依赖解析器,它 除了支持Python标准库中的HTML解析器外,还支持一些第三方解析器(比如lxml)——我选择使用lxml ...
2019-05-13 20:34:11
1811
原创 Task1 请求和正则
通过 requests的get方法可以发送请求 给某个URL 任务1.1 (1) 以下代码即可 发送请求给百度URL 并且获得 URL响应的 内容 import requests page = requests.get('http://www.baidu.com/') print (page.content) print (requests.get('http://www.baidu.com/'...
2019-05-11 22:27:55
288
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅