爬虫随笔（一）

最新推荐文章于 2025-06-10 16:32:52 发布

-day day up-

最新推荐文章于 2025-06-10 16:32:52 发布

阅读量226

点赞数

文章标签：爬虫 pygame python

本文链接：https://blog.youkuaiyun.com/qq_54641516/article/details/126164794

版权

在学了一个月的爬虫，也看了很多视频，基本了解了大概思路，但是还是有一些疑问，这里小结一下我自己的感受

首先就是要导入一些第三方库，请求数据的requests，解析数据的re,BeatuifulSoup,Xpath........

安装第三方库，可以看https://blog.youkuaiyun.com/qq_54641516/article/details/124697321

import bs4   #网页解析，获取数据（将网页进行数据拆分）
from bs4 import BeautifulSoup      #只调用BeautifulSoup这个模块
import re    #正则表达式，进行文字匹配 （进行数据的提炼）
import requests   #制定URL，获取网页数据（给网页就可以爬取数据）
import xlwt   #进行excel操作（将数据存放到excel中）
import sqlite3  #进行SQLite数据库操作（将数据库存放到数据库中）
import csv    #可以将数据存为csv格式
from lxml import etree     #用Xpath解析数据

然后我们拿到一个网，可以先看一下页面源代码，最简单的是源代码里有我们想要的数据，数据就在html里面，那我们就可以在获取网页信息后直接进行解析提炼

import requests
import re

url = 'https://movie.douban.com/top250?start='
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"
}
res = requests.get(url,headers = headers)
#if result.status_code == 200:    #当请求的状态码为200时，则说明请求成功
#    print(res.text)
page = res.text
#解析数据
obj = re.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)</span>',re.S)
#开始匹配
result = obj.finditer(page)
for i in result:
    print(i.group("name"))

这里简单爬取了豆瓣评分 Top250第一页的电影名

例子很简单，headers简单模拟了一下浏览器的头部，小小的处理了一下反爬。

headers是让网站不要把我们的爬虫程序当成爬虫，把我们的程序伪装成浏览器，设置方法就是网页主页--检查--Network -- all -- header -- 找到对应信息复制粘贴过来，一般只加user agent就够了，但是有些网站会加入防盗链referer等，我们可以尽可能多的在headers中加入信息（如下图的信息都可以添加）

在解析数据时有很多方法，比如正则表达式，Xpath，bs4......相比较我认为正则表达式比较难分析，上图的例子就是正则表达式的运用

当网页的页面源代码和检查中的Elements一样时，也可以用Xpath解析，下面附一个例子

import requests
from lxml import etree   #会报错，不影响
#etree可以加载很多东西，etree.HTML() , etree.parse()  加载文件  ,etree.xml()
#etree包含Xpath()的功能,Xpath在XML文档中查找信息
#如果要从script里取内容最好用re,不符合Xpath(script是JS代码，不是HTML标签)

url = 'https://shenzhen.zbj.com/search/service/?kw=java&r=1'
res = requests.get(url)
#print(res.text)
html = etree.HTML(res.text)

divs = html.xpath('//*[@id="__layout"]/div/div[3]/div/div[3]/div[4]/div[1]/div[1]')
#divs = html.xpath('/html/body/div[2]/div/div/div[3]/div/div[3]/div[4]/div[1]/div')

for div in divs:
    #text()拿文本内容
    comment = "".join(div.xpath("./div[3]/div[2]/div[1]/span/text()"))
    title = div.xpath("./div[3]/a[1]/text()")[0]   #[0]将数据从列表中拿出来
    price = div.xpath("./div[3]/div[1]/span/text()")[0].strip('￥')  #将￥去掉
    number = ":".join(div.xpath("./div[3]/div[2]/div[2]/span/text()"))   #用”：“将列表中两个数据连接起来
    print(title)
    print(comment)
    print(number)
    print(price)

这些是一些基础的爬虫解析

如果碰到比较复杂的网页，即数据不在源代码中，而是在子链接中，这时我们要先将子链接爬取下来，再进行请求解析

后面还有多任务异步，解密......

我在处理当数据存在Elements时，但源代码中几乎没有数据时还是比较困难，嗯，继续学习，希望可以继续写下去