自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Selenium

Selenium文章目录Selenium访问页面查找元素元素交互操作执行JavaScript获取元素信息Frame等待前进后退Cookies选项卡管理异常处理自动化测试工具,支持多种浏览器。爬虫中主要用来解决JavaScript渲染的问题访问页面from selenium import webdriverbrowser = webdriver.Chrome()browser.get('...

2020-03-22 11:46:20 185

原创 PyQuery

PyQuery强大又灵活的网页解析库。如果你觉得正则写起来太麻烦,如果你觉得BeautifulSoup语法太难记,如果你熟悉jQuery的语法,那么PyQuery就是你的最佳选择。文章目录PyQuery字符串初始化URL初始化基本CSS选择器查找元素遍历获取信息DOM操作伪类选择器字符串初始化html = '''<div id="container"> <ul ...

2020-02-19 11:49:33 188

原创 BeautifulSoup库详解

BeautifulSoup库详解文章目录BeautifulSoup库详解解析器一览标签选择器标准选择器find_allCSS选择器Beautifulsoup:灵活又方便的网页解析库,处理高效,支持多种解析器。利用它不用编写正则表达式即可方便地实现网页信息的提取。解析器一览解析器使用方法优势劣势Python标准库BeautifulSoup(markup,”html....

2019-12-04 23:29:50 336

原创 python网络爬虫笔记-re正则表达式

正则表达式什么是正则表达式? 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑所以正则表达式并非某一编程语言所特有,它在不同的环境下有不同的用法。比如说shell脚本的awk命令或者是#、%分割字符等等,但是不管哪种方法,正则表达式都为我们解决文本匹配问题提供了巨大的帮助。而...

2019-10-27 11:20:02 371

原创 python网络爬虫笔记-requests

Requests库基本使用Requests是用python语言编写的基于urllib3采用Apache2 license开源协议的HTTP库。它比urllib更加方便。文章目录Requests库基本使用安装基本的GET请求解析json获取二进制数据添加headers基于POST请求Response属性文件上传获取cookie会话维持证书验证安装终端下运行以下代码pip3 install ...

2019-10-10 19:28:56 394

原创 python网络爬虫笔记-urllib

写在前面:这算是我的第一篇博客。我写博客的原因应该会和大部分人一样,为了交流和分享知识,同时也可以结交志同道合的朋友。由于我大四毕设的课题与网络爬虫相关,当时花了不少心思去学这一门技术,虽然不能说算是精通,但也是掌握了一些技巧和方法。同时呢,我当时也整理了很多的笔记,本来是没想着要写进博客里,不过最后还是决定行动了。这些笔记我会以文章的形式来展示出来,编程语言为python,大概5-6篇,其中会...

2019-09-23 23:15:04 316

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除