瓶_子-优快云博客

原创 python网络爬虫（四）

爬取腾讯新闻热点精选腾讯新闻的 url:https://news.qq.com/ import time from selenium import webdriver from bs4 import BeautifulSoup browser=webdriver.Chrome(r'D:\***\chromedriver.exe') browser.get('https://news.qq.c...

2020-04-27 18:56:50 211

原创 python网络爬虫（三）

python爬虫——selenium selenium的介绍 selenium是一个Web的自动化测试工具，最初是为网址自动化测试开发的，selenium可以直接运行在浏览器上，它支持所有主流的浏览器（包括phantomJS这些无界面的浏览器），可以接受指令，让浏览器自动加载页面，获取需要的数据，甚至页面截图。 phantomJS是一个基于Webkit的“无界面”（headless)浏览器，它会把...

2020-04-25 19:20:00 287

原创 python网络爬虫（二）

python爬虫——BeautifulSoup BeautifuSoup介绍 BeautifuSoup‘美味汤’，他是Python的一个第三方库，它能够对HTML格式进行解析，并且提取相关的信息。 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完...

2020-04-23 20:33:42 838

原创 Python网络爬虫信息（一）

文章目录了解网页学习Python的requests 库使用request爬取网站信息了解网页网页定义网页是一个包含HTML标签的纯文本文件，它可以存放在世界某个角落的某一台计算机中，是万维网中的一“页”，是超文本标记语言格式（标准通用标记语言的一个应用，文件扩展名为.html或.htm）。网页通常用图像档来提供图画。网页要通过网页浏览器来阅读。网页组成页面结构：HTML HTML是标记...

2020-04-21 20:50:07 290

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人