
python3 爬虫学习笔记
本宝宝不开心
本宝宝不开心,造轮子和夯实基础中
展开
-
python3爬虫 BeautifulSoup库学习
BeautifulSoup库 pip install bs4 基本用法 from bs4 import BeautifulSoup html = """ <html><head><title>The Dormouse's story</title></head> <body> <p class="title" name="dromouse"><b>The Dormouse's story</b>.原创 2021-01-26 17:13:31 · 84 阅读 · 0 评论 -
python3 爬虫之猫眼排行榜 XPath版
lxml import requests from lxml import etree def get_html_page(url): headers ={ #"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36", "User-agent": "Baiduspider" } s = requ.原创 2021-01-26 14:30:08 · 177 阅读 · 0 评论 -
python3 爬虫 XPath库的使用
XPath常用规则 //title[@lang='english'] 代表选择所有名称为title,属性值为english的节点 from lxml import etree text=''' <div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html"&原创 2021-01-26 11:10:27 · 135 阅读 · 1 评论 -
python3 爬虫之猫眼排行榜Top100-正则版
re requests 结合先前的模块学习下用法,仅此而已 猫眼现在有了防爬虫机制,so伪造成百度爬虫机器人,不会封禁 import requests import re import json import time def get_one_page(url): headers ={ #"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.原创 2021-01-25 15:47:01 · 111 阅读 · 0 评论 -
python3 爬虫 正则表达式学习
re模块 常用匹配规则 #re.match方法 从字符串开头开始匹配,一旦开头不匹配,就会匹配失败 import re content="Hello 1234567 World_This is a Regex Demo" print(len(content)) result = re.match('^Hello\s(\d+)\sWorld',content) print(result) print(result.group()) print(result.group(1)) #提取1234567 pri原创 2021-01-25 13:58:25 · 97 阅读 · 0 评论 -
python3 爬虫requests模块
requests import requests r = requests.get('https://www.baidu.com') print(type(r)) print(type(r.status_code)) print(r.status_code) #服务器返回的状态码 print(type(r.text)) print(r.text) #服务器返回的文本,str类型原创 2021-01-25 11:12:11 · 146 阅读 · 1 评论