dengzhh3-优快云博客

原创模拟登陆并抓取丁香园全部回复

大实战： # -*- coding: utf-8 -*- """ Created on Thu May 16 13:25:11 2019 @author: 38418 """ import requests from lxml import etree from selenium import webdriver import time headers = { 'User-Agent'...

2019-05-17 23:51:40 305

原创 selenium 和 IP代理池

3.1 selenium selenium： Selenium 是一个自动化测试工具，利用它可以驱动浏览器执行特定的动作，如点击、下拉等操作（模拟浏览器操作）同时还可以获取浏览器当前呈现的页面的源代码，做到可见即可爬 Selenium支持非常多的浏览器，如 Chrome、Firefox、PhantomJS等浏览器对象的初始化并将其赋值为 browser 对象。接下来，我们要做的就是调用 ...

2019-05-15 21:55:00 84663 2

原创解析工具的使用——Beautiful Soup、XPath

2.1 Beautiful Soup Beautiful Soup借助网页的结构和属性等特性来解析网页其在解析时实际上依赖解析器，它除了支持Python标准库中的HTML解析器外，还支持一些第三方解析器（比如lxml）——我选择使用lxml ...

2019-05-13 20:34:11 1811

原创 Task1 请求和正则

通过 requests的get方法可以发送请求给某个URL 任务1.1 （1）以下代码即可发送请求给百度URL 并且获得 URL响应的内容 import requests page = requests.get('http://www.baidu.com/') print (page.content) print (requests.get('http://www.baidu.com/'...

2019-05-11 22:27:55 288

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 模拟登陆并抓取丁香园全部回复

原创 selenium 和 IP代理池

原创 解析工具的使用——Beautiful Soup、XPath

原创 Task1 请求和正则

空空如也

空空如也

原创模拟登陆并抓取丁香园全部回复

原创解析工具的使用——Beautiful Soup、XPath