
python爬虫
rongDang
年轻人就该多读书
展开
-
Selenium 设置带账号密码的socks5代理
Selenium 设置带账号密码的socks5代理转载 2022-08-02 20:46:19 · 3814 阅读 · 0 评论 -
python 修改TLS指纹
python TLS指纹转载 2022-07-25 17:29:25 · 1874 阅读 · 0 评论 -
selenium 避免被检测
谷歌浏览器79以前的版本通过下面方法修改避免网站监测window.navigator.webdriver值from selenium.webdriver import Chromefrom selenium.webdriver import ChromeOptionsoption = ChromeOptions()option.add_experimental_option('excludeSwitches', ['enable-automation'])driver = Chrome(..转载 2020-07-16 15:09:16 · 2784 阅读 · 2 评论 -
Selenium+PhantomJS使用出错以及解决方案
问题在学习使用selenium+PhantomJS来爬取网页的时候,刚刚运行就出现了下面的报错信息:UserWarning: Selenium support for PhantomJS has been deprecated, please use headless versions of Chrome or Firefox instead warnings.warn('Selen...原创 2018-08-01 15:50:30 · 2168 阅读 · 0 评论 -
Xpath语法和使用示例
Xpath语法Xpath是一门在XML文档中查找信息的语言,可以用来在XML文档中元素和属性进行遍历,是W3C XSLT标准的主要元素 1,节点关系父节点,下面例子中,body是h1元素的父节点,h1是body节点的子节点,子节点可以有零个和多个<body> <h1>小白</h1> <h2>小黑</h2><...转载 2018-04-06 14:54:13 · 13772 阅读 · 0 评论 -
爬虫原理和网页构造
文章参照 从零开始学python网络爬虫 所写,本人也是刚刚接触爬虫网络连接 网络连接像是在自助饮料售货机上购买饮料一样:购买者只需选择所需饮料,投入硬币,自助饮料售货机就会弹出相应的商品。网络连接也正是如此,如下图所示,本机电脑(购买者)带着请求头和消息体(硬币和所需饮料)向服务器(自助饮料售货机)发起一次Requests请求(购买),相应的服务器(自助饮料售货机)会返回本机电脑相应的...翻译 2018-03-28 16:26:32 · 1219 阅读 · 0 评论 -
正则表达式
主要的内容正则表达式常用符号re模块和方法例1----爬取斗破苍穹全文小说例2----爬取糗事百科段子信息正则表达式中的常用符号1,一般字符2,预定义字符集3,数量词4,边界匹配re模块中的search()函数re模块的search()函数匹配并提取第一个符合规律的内容,返回一个正则表达式对象。基本语法为:re.search(pattern, string, flags=0)1,pattern为匹...转载 2018-04-05 15:29:20 · 454 阅读 · 0 评论 -
爬取酷狗榜单中的top500
首先先看到top500的页面,如下图所示网页版的酷狗没有翻页的操作,所以不能看到后面页数的链接,根据第一页的链接,http://www.kugou.com/yy/rank/home/1-8888.html 我们尝试把链接里面的数字1改为2,果然跳转到第二页去了,这样就好办了,每页显示22条歌曲,所以经过计算,需要23条url链接,后面自己手动创建url具体的操作和解释都下面代码中# -*- e...转载 2018-04-01 18:58:41 · 3565 阅读 · 0 评论 -
我的第一个爬虫
这里首先说下python的第三方库,python之所以强大并渐渐流行起来,一部分的原因要归功于python强大的第三方库。作业用户就不用了解底层的原理,用最少的代码写更多的功能。爬虫的三大常用库Requests库,BeautifualSoup库和Lxml库安装方法:这里说下用pip命令安装,pip install name(需要安装库的名称)例如:pip install BeautifualSou...转载 2018-03-31 17:54:01 · 506 阅读 · 0 评论