
python爬虫笔记
brkalsy
这个作者很懒,什么都没留下…
展开
-
pythonscrapy——crawlspider&cookie&post发送
pythonscrapy——crawlspidercrawlspider命令——scrapy startproject xxxx,scrapy genspider -t crawl xx xxxxxx爬取古诗名字:将没有title的处理当url的规律适合用正则来爬取的话,用crawlspider会好详情页的名字在这个:结果:不仅爬出来了,也把不用的数据也爬了因为他们的url也是这样的cookie模拟登录——qq空间需要在parse之前就把cookie放上去——用原创 2021-06-13 05:08:19 · 925 阅读 · 0 评论 -
python scrapy4——middlewaves
python scrapy4——middlewavesmiddlewaves用ua随机请求头做案例爬虫文件:——没有打开请求头结果:打开请求头下结果:使用虚假请求头:方法一:将虚假请求头放在一个列表里面,然后random.choice()需要打开下载中间器:结果多次请求:用到新的参数:dont_filter =True(不去重)第二种方法:用fake_useragent import UserAgent先创建一个UserAgent的对象——ua原创 2021-06-06 04:19:36 · 515 阅读 · 0 评论 -
python scrapy 案例练习
案例练习爬取职位+翻页爬取指向的只是数字不是url地址页面分析ajax接口找寻——Network里面看打开网址:第一页:https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1622714101653&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrI原创 2021-06-04 01:39:33 · 298 阅读 · 0 评论 -
python Scrapy2古诗爬取
python Scrapy2古诗爬取setting配置页面分析数据分析实现步骤在start文件运行结果:获取内容解决方法:’’.join().strip(),strip是把列表转为字符串,’‘是把不同诗句换成’'连接...原创 2021-06-03 02:46:43 · 329 阅读 · 2 评论 -
python scrapy介绍+豆瓣案列
python scrapy介绍scrapy命令cd路径下,scrapy startproject 命名命名的doubanspider.py:item文件:middlewaves:pipline:setting:scarpy执行命令1——终端输入scrapy crawl 名字运行结果解决:复制一个headers放在setting的请求头处加了请求头后爬取豆瓣的标题用xpath,之前用的是from lxml i原创 2021-06-01 17:25:19 · 184 阅读 · 2 评论 -
python报错文档+解决方法
python报错文档+解决方法在写代码途中突然按到某些快捷键的问题+解决方式如:输入法繁简体转换具体解决方式如下:原创 2021-05-31 16:02:00 · 173 阅读 · 0 评论 -
爬虫练习csv录入
爬虫练习csv录入发现应用程序是ajax动态加载,可以用selenuim或者分析页面来源,可以在network找XHR或者在ALL找打开第一个url普通(非多线程下的爬虫案例+csv保存)# 发现应用程序是ajax动态加载,可以用selenuim或者分析页面来源# 可以再network找XHR或者在ALL找# 点开一个,url https://app.mi.com/details?id=com.kuaiyin.live# XHR 里的packageName是这个原创 2021-05-31 16:22:32 · 94 阅读 · 0 评论 -
ajax动态加载快速查看(XHR)
发现应用程序是ajax动态加载,可以用selenuim或者分析页面来源,可以在network找XHR或者在ALL找打开第一个url原创 2021-05-31 16:07:12 · 327 阅读 · 0 评论 -
python多线程2
查看线程数量——enumerate()通常用index代表索引enumerate()在threading线程库的作用——threading.enumerate()加入time.sleep()观察import threading# threading.enumerate()def demo1(): for i in range(5): print('我是demo1---%s' % i) time.sleep(1)def demo2():原创 2021-05-31 15:13:55 · 196 阅读 · 1 评论 -
python多线程介绍
多线程介绍线程方法一:函数形式import threadingimport timedef demo(): print('hello 我是子线程')# 小建议:凡是程序一上线程,复杂度就上升了,出bug的机会多了# 线程方法一:if __name__ == '__main__': # target要传递一个函数 for i in range(5): t =threading.Thread(target=demo) time.s原创 2021-05-25 00:29:04 · 76 阅读 · 0 评论 -
python—selenuim行为链练习
猫眼电影用senlenuim爬取senlenuim拿到网页源码——page_sourcefrom selenium import webdriverfrom selenium.webdriver import ActionChainsimport timedriver = webdriver.Chrome()driver.get('https://www.baidu.com/')# driver.page_source 获取html源代码html = driver.page_sourcep原创 2021-05-19 02:46:51 · 528 阅读 · 2 评论 -
pythonselenuim练习
12306练习webdriver.Chome()要放在全局,放在类当中会触发垃圾回收机制当登录的时候,为了方便查看,用显示等待,当触发了页面包含(url_contains),打印登录成功from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.suppo原创 2021-05-17 19:58:18 · 89 阅读 · 0 评论 -
python ajax介绍
fake_useragent 虚假请求头的使用需要安装模块——fake-useragentfrom fake_useragent import UserAgentua =UserAgent()print(ua.random)ajax介绍分析ajax数据接口案例——百度贴吧图片爬取打开贴吧图片找到图片的url复制地址到源码中查看是否存在,如果存在直接请求该url,不存在则需要分析数据接口不存在该源代码中这时候打开Network,打开XHR到respons原创 2021-05-13 21:59:28 · 256 阅读 · 0 评论 -
python selenuim 行为链
selenuim行为链具体url参考:http://selenium-python.readthedocs.io/api.html行为链事例from selenium import webdriverfrom selenium.webdriver import ActionChainsdriver =webdriver.Chrome()driver.get('https://www.baidu.com/')# 定位到输入框inputTag =driver.find_element_原创 2021-05-10 20:55:22 · 290 阅读 · 1 评论 -
python selenium
selenium介绍加载驱动 PhantomJSdriver = webdriver.PhantomJS()需要把PhantomJS加载到环境变量或者当前目录把驱动放到path环境变量中,python解析器中打开url模拟在百度输入框写入找到输入框的element,找到id=‘kw’的输入框点击事件获取新URLchromedriver输入url——.get()打开三秒后自动关退出驱动(关闭所有窗口)——.quit()关闭当前窗口——.close()原创 2021-05-07 17:15:58 · 87 阅读 · 0 评论 -
python bs4 2
cssselect()方法——标签找——select(‘标签名’)select()方法——类名找——(.class)select()方法——id找——#idselect()方法——组合方式——(标签 #id)中间有空格select()方法——通过父标签找下面内容select()找数据——[索引].get_text()练习修改文档树改标签——.name=’’,改属性——[类]=’’改数据——string=’’append增加值删除...原创 2021-05-04 20:06:36 · 129 阅读 · 0 评论 -
python bs4练习
解析数据用bs4找寻数据广西数据在这一条td中南宁开始在第二个tdtable标签代表一个省的所有数据整个地区的数据在这个类里# 获取全中国所有城市名字、温度保存到csv文件# http://www.weather.com.cn/textFC/hb.shtml 华北地区# http://www.weather.com.cn/textFC/db.shtml 东北地区# http://www.weather.com.cn/textFC/hd.shtml 华东地区# http://www原创 2021-05-04 21:04:25 · 313 阅读 · 5 评论 -
python bs4 入门
python bs4 BeautiSoup入门结果:prettify():直接打印相关内容有多个相同标签时找到三个hrefbs4 对象种类bs4 tag标签找标签属性——attrsNavigableString可导航的字符串soup对象comment 注释遍历文档树contents chlidren descendentsstring strings stripped strings–把多余空格去掉string——获取标签里面的内原创 2021-05-03 02:49:51 · 266 阅读 · 3 评论 -
python——xpath
xpath介绍节点关系xpath快捷键chromelxml模块使用把数据存储到字典并保存csv换一种方法取result的索引——index()结果取到了:豆瓣 top250 翻页爬取 链接、名字、评分、引言拼接字符串结果出来有[],所以可以进行处理索引取值,做非空判断f’{}'和{}.format()区别代码总汇:from lxml import etreeimport csvimport原创 2021-05-02 19:03:59 · 139 阅读 · 1 评论 -
python正则表达式下
re模块常用方法:compile使用标志位(flags)re.I——大小写不敏感(都识别)findall 都查询,match、search只能查询一个注意:findall不用加group()拿到列表内容后,可以用for循环遍历内容,也可以直接提取注意:如果findall下是空集,要看看是不是正则写错了re.split 表达式:split(pattern, string, maxsplit=0, flags=0)sub() 表达式:sub(pattern, rep原创 2021-04-29 02:56:15 · 240 阅读 · 1 评论 -
python正则表达式上复习
正则表达式介绍简单正则引入. 匹配除了换行符以外的任何一个字符| 或,匹配两个中的一个,match只找开头,要可以找到除开头外的要用search[] 匹配字符集中的一个字符[^] 取反r或者\的作用有的时候加r也不好使:\d 匹配任意0-9的一个字符\w 匹配A-Za-z0-9_* 表达式出现0次到任意次如果要用.*遇到换行可以用标志位——re.S...原创 2021-04-28 00:55:40 · 64 阅读 · 0 评论 -
python正则表达式上
正则表达式引入match函数如果输入的是pythonn注意:从1开始特殊字符"."——匹配除了换行符\n外任意一个字符| ——逻辑"或"操作符注意:开头没有匹配会报错(match只找开头),解决方法——用re.search[] 匹配字符集中的一个字符[^] 字符集反向操作(取反)——除了这些内容以外的内容- 定义区间\ 对紧跟其后的字符转义特殊转义:预定义匹配字符:\d只能匹配开头\w 匹配字母数字下划线\s 空格 制表符换页符等空白原创 2021-04-26 02:28:57 · 356 阅读 · 0 评论 -
python爬虫补充
知识补充原创 2021-04-21 19:50:04 · 90 阅读 · 0 评论 -
python爬虫——requests
python爬虫requests上get&postURL解析F12/鼠标右键【检查】原创 2021-04-19 22:52:45 · 259 阅读 · 1 评论 -
python爬虫requests模块基础
get请求原创 2021-04-19 03:27:59 · 307 阅读 · 0 评论 -
Python爬虫第一课
解决我的一大难题:输入法简繁体设置:ctrl+shift+F解决!!!!python通訊協議python爬虫介紹原创 2021-04-15 19:19:04 · 83 阅读 · 0 评论