
爬虫
Atticus_Johnson
保持乐观,点滴进步
展开
-
爬虫学习笔记(三)
安装selenium在下载前先要确定自己的chrome的版本号,在浏览器的帮助->关于chrome可以看到。安装chromedriver登录https://sites.google.com/a/chromium.org/chromedriver/downloads可能国内用户无法登陆下载安装然后将.exe文件放到chrome的安装文件中,chrome安装路径我的是:C:\...原创 2019-05-15 21:06:29 · 252 阅读 · 0 评论 -
爬虫学习笔记(一)
1 get & post(1) GET请求将提交的数据放置在HTTP请求协议头中import requestsurl = 'http://www.baidu.com'response = requests.get(url)print(response.text)输出:<!DOCTYPE html><!--STATUS OK--><html&g...原创 2019-05-11 23:25:57 · 1097 阅读 · 0 评论 -
爬虫学习笔记(二)
学习beautifulsoup介绍Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.Beautiful Soup 官方文档(中文):https://beautifulsoup.readthedocs.io/zh_CN/...原创 2019-05-13 00:02:31 · 473 阅读 · 0 评论 -
爬虫学习笔记(四)
任务:模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容。一 首先利用selenium登录网站1.切换到账号密码表单登录,我采用了利用style将display值变为block,代码如下:from selenium import webdriverimport timebrowser = webdriver.Chrome()# 此处请选择您的浏览器js1 = ...原创 2019-05-17 19:53:00 · 322 阅读 · 0 评论