
爬虫学习笔记
文章平均质量分 50
.....
程序员阿伟
热爱编程,编程可以改变生活
专注大数据领域
前后端略有涉及
喜欢分享好玩有趣的小项目
个人座右铭:编程之路没有尽头,永远保持自己的热爱
展开
-
python利用re正则表达式提取数据
需求有时我们需要在一端文本中提取出我们想要的字符串,常用的场景:在一段网页源代码中提取某一个的标签中的数据例子1、例如,我们想要获取<div id="content"></div>中的数据<html><head>...</head><body>... <div id="content"> 想要获取的数据 </div><body>...原创 2021-11-20 15:44:50 · 2767 阅读 · 0 评论 -
04 Selenium获取动态数据
简介 如今的网站反爬手段层出不穷,不像以前那么简单,网页在后端渲染好数据,再发送给客户端。现在通用的网页技术,前后端分离,前端中通过js函数发送请求向后端请求数据然后在渲染数据,因此,我们要是简单的发送requests请求,最后得到只是一堆js函数 当然,爬虫中也有相应的破解方法:selenium自动化工具,那就是驱动浏览器去模拟人为地获取数据安装1、安装selenium库pip install selenium# 上面命令安装失败请用下面命令pip ...原创 2021-11-11 17:19:53 · 2212 阅读 · 0 评论 -
01 python爬虫环境准备
欲善其事,必先利其器基本环境安装1.python环境安装和PyCharm编译工具(略)可以自行百度安装,太基础不做教程2.导入request库和LXML1.安装requestspip install requests# 上面指令如果安装失败,可以尝试下面命令pip install requests -i http://pypi.douban.com/simple --trusted-host pypi.douban.com2.安装lxml库pip install原创 2021-11-05 11:39:38 · 284 阅读 · 0 评论 -
02 网页解析语法 Xpath
一般来说,我们在浏览器输入某个网站的网址,就会展现出一个精致的网页,其实这是经过浏览器的解析过了的,原本的网页文件是html文件来的,里面有着许多标签和文本内容,而我们想要获得的文本内容就在这些标签中,如果我们想要获得网页中需要的文本,就要去定位需要的文本在哪些标签中,并且定位这些标签又在整个网页结构的哪个位置,这样才是我们获取数据的整套流程语法提取网页中的核心信息方法有三种:正则、bs4(BeautifulSoup4)、xpath三种提取语法各有各的好处,这里只用xpath,因为可以搭原创 2021-11-05 13:47:26 · 233 阅读 · 0 评论