- 博客(4)
- 收藏
- 关注
原创 python网络爬虫(四)
爬取腾讯新闻热点精选 腾讯新闻的 url:https://news.qq.com/ import time from selenium import webdriver from bs4 import BeautifulSoup browser=webdriver.Chrome(r'D:\***\chromedriver.exe') browser.get('https://news.qq.c...
2020-04-27 18:56:50
211
原创 python网络爬虫(三)
python爬虫——selenium selenium的介绍 selenium是一个Web的自动化测试工具,最初是为网址自动化测试开发的,selenium可以直接运行在浏览器上,它支持所有主流的浏览器(包括phantomJS这些无界面的浏览器),可以接受指令,让浏览器自动加载页面,获取需要的数据,甚至页面截图。 phantomJS是一个基于Webkit的“无界面”(headless)浏览器,它会把...
2020-04-25 19:20:00
287
原创 python网络爬虫(二)
python爬虫——BeautifulSoup BeautifuSoup介绍 BeautifuSoup‘美味汤’,他是Python的一个第三方库,它能够对HTML格式进行解析,并且提取相关的信息。 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完...
2020-04-23 20:33:42
838
原创 Python网络爬虫信息(一)
文章目录了解网页学习Python的requests 库使用request爬取网站信息 了解网页 网页定义 网页是一个包含HTML标签的纯文本文件,它可以存放在世界某个角落的某一台计算机中,是万维网中的一“页”,是超文本标记语言格式(标准通用标记语言的一个应用,文件扩展名为.html或.htm)。网页通常用图像档来提供图画。网页要通过网页浏览器来阅读。 网页组成 页面结构:HTML HTML是标记...
2020-04-21 20:50:07
290
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅