
爬虫
零步开始学习,每天记录一下,希望大家可以一起交流!
乾杯 []~457
一名大学生 ,记录一下自己的学习成果,希望大家可以一起交流。
展开
-
爬虫--selenium
from selenium.webdriver import Chromefrom selenium.webdriver.common.keys import Keysimport timeweb = Chrome()web.get("http://lagou.com")# 找到某个元素,去点击web.find_element_by_xpath('//*[@id="changeCityBox"]/ul/li[1]/a').click() # 点击事件# 肯能程序比浏览器加载的快,所以.原创 2022-04-05 22:12:07 · 760 阅读 · 0 评论 -
爬虫--多线程,线程池,异步协程
# 1 , 多线程from threading import Threaddef func(): for i in range(1000): print("线程1", i)def func2(): for i in range(1000): print("线程2", i)if __name__ == '__main__': t = Thread(target=func()) t.start() # 开辟一个线程,具体实现.原创 2022-04-05 22:08:12 · 772 阅读 · 0 评论 -
爬虫--cookies,防盗链
import requests# session 相当于一个会话,他会记录。session =requests.session()所以我们需要找到他需要登陆的那个url,得到cookies数据,比如我们需要登录一个小说,因此我们找到了他应该登录网页的那个url_1。data = { "loginName": "你的用户名", "password": "你的密码"}session.post(url_1,data=data)给他放进去,此时已经记录,因此找到我们需要.原创 2022-04-05 21:29:49 · 1194 阅读 · 0 评论 -
爬虫前的小准备--Xpath
XPath是一门在XML文档中查找信息的语言.XPath可用来在XML文档中对元素和属性进行遍历.而我们熟知的HTML恰巧属于XML的一个子集.所以完全可以用xpath去查找html中的内容.一,XML<book> <id>1</id> <name>张三</name> <age>12</age> <body> <nick>头</nick>原创 2022-03-29 21:02:46 · 76 阅读 · 0 评论 -
爬虫前的小准备----BeautifulSoup
html = '''<ul> <li><a href="xiaotian.com">小天</a></li> <li id="abc"><a href="zhoutian.com">周天</a>></li> <li><a href="zhu.com">朱</a></li> <li><a href="wu.com".原创 2022-03-29 20:47:43 · 3001 阅读 · 0 评论 -
爬虫---requests之get 和 post 请求
get 请求我们来看一下某瓣的爬取案例;import requestsurl = "https://movie.douban.com/typerank"data = { "type": "5", "interval_id": "100:90", "action": "", "start": "0", "limit": "1",}headers ={"User-Agent": "Mozilla/5.0 (Windows NT 10.0;原创 2022-03-29 19:40:20 · 1180 阅读 · 0 评论 -
爬虫前的小准备-----HTML
<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>Title</title></head><body></body></html><标签名 属性 = "值">内容</标签>相当于( ...原创 2022-03-28 11:21:27 · 2742 阅读 · 0 评论 -
爬虫前的小准备-----CSS
HTML 相当于一个骨架,并没有啥可修饰的而CSS相当于美颜,可进行装饰,美化一:CSS语法规则1.通过style属性来编写样式2、通过style标签.然后使用选择器的形式来编写样式3.在css文件中编写样式,通过link引入该文件1.直接style<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>Titl原创 2022-03-28 12:07:37 · 220 阅读 · 0 评论 -
爬虫前的小准备-----re 正则表达式
我们来整理一下爬虫所用到的一些重点推荐一个小网站,可以进行练手在线正则表达式测试https://tool.oschina.net/regex/元字符1 “ . ”匹配除换行符以外的任意字符,未来在python的re模块中是一个坑.2 \d 匹配数字3 ^匹配字符串的开始4 $匹配字符串的结尾5 al b匹配字符α或字符h6 () 匹配括号内的表达式,也表示一个组量词:控制前面元字符出现的次数其实比较重要的是惰性匹配(前后离他最近的,用到了...原创 2022-03-28 22:06:29 · 326 阅读 · 0 评论