- 博客(4)
- 收藏
- 关注
原创 Python爬虫—Task4
爬取腾讯新闻的热点精选程序:import timefrom selenium import webdriverfrom bs4 import BeautifulSoupdriver = webdriver.Chrome()driver.get("https://news.qq.com")#了解ajax加载for i in range(1,50): time.sleep(2...
2020-04-27 10:15:24
220
原创 Python爬虫—Task3
了解session和cookie,ip代理知识,selenium的使用selenium相关介绍Selenium是一个用于Web应用程序测试的工具,它直接运行在浏览器中,就像真正的用户在操作一样。find_element_by_xpath()的几种方法Xpath (XML Path Language),是W3C定义的用来在XML文档中选择节点的语言一:从根目录/开始有点像Linux的文件...
2020-04-25 22:55:12
183
原创 Python爬虫—Task2
学习三类爬虫检索目标信息的方法:bs4、Xpath、正则式1.bs4Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。推荐使用Beautiful Soup 4, 移植到BS4。Task1中爬取豆瓣电影Top250用到了这种方法。2. xpathXPath即为XML路径语言(XML P...
2020-04-23 21:25:11
429
原创 python爬虫—Task1
Task11.概念1.1 爬虫原理三步:模拟计算器对服务器发起request请求→接受服务器端的response并提取数据→存储数据1.2 爬虫流程四步:构建url列表→循环遍历url列表→提取数据→存储数据注:URL是统一资源定位符,对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址,和计算机的文件路径一样。1.3 网页构造html各个标签的意义...
2020-04-21 14:50:16
235
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅