timekeeperlx-优快云博客

原创 Python爬虫—Task4

爬取腾讯新闻的热点精选程序：import timefrom selenium import webdriverfrom bs4 import BeautifulSoupdriver = webdriver.Chrome()driver.get("https://news.qq.com")#了解ajax加载for i in range(1,50): time.sleep(2...

2020-04-27 10:15:24 220

原创 Python爬虫—Task3

了解session和cookie，ip代理知识，selenium的使用selenium相关介绍Selenium是一个用于Web应用程序测试的工具，它直接运行在浏览器中，就像真正的用户在操作一样。find_element_by_xpath()的几种方法Xpath (XML Path Language)，是W3C定义的用来在XML文档中选择节点的语言一：从根目录/开始有点像Linux的文件...

2020-04-25 22:55:12 183

原创 Python爬虫—Task2

学习三类爬虫检索目标信息的方法：bs4、Xpath、正则式1.bs4Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。推荐使用Beautiful Soup 4, 移植到BS4。Task1中爬取豆瓣电影Top250用到了这种方法。2. xpathXPath即为XML路径语言（XML P...

2020-04-23 21:25:11 429

原创 python爬虫—Task1

Task11.概念1.1 爬虫原理三步：模拟计算器对服务器发起request请求→接受服务器端的response并提取数据→存储数据1.2 爬虫流程四步：构建url列表→循环遍历url列表→提取数据→存储数据注：URL是统一资源定位符，对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址，和计算机的文件路径一样。1.3 网页构造html各个标签的意义...

2020-04-21 14:50:16 235

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人