公交线路爬虫

最新推荐文章于 2023-11-13 07:55:10 发布

置顶

NOtargetSaltyfish

最新推荐文章于 2023-11-13 07:55:10 发布

阅读量1.2k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：爬虫文章标签： Python

本文链接：https://blog.youkuaiyun.com/NOtargetSaltyfish/article/details/102526158

本文记录了一个Python爬虫项目，该项目爬取了深圳市公交线路及站点信息。利用Requests和BeautifulSoup库，爬取并解析网页，最终将数据保存为CSV文件。爬虫主要针对<div class='list'>和<div class='list clearfix'>标签提取信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近由于一门课的project需要用到爬虫，因此在网上找了个教程，边看边学，写了一个爬虫，爬取了深圳市公交路线的线路及站点信息。为了防止以后要用到该爬虫或者作进一步的改进时忘记当初的思路，因此写个博客记录一下。

首先，该爬虫所用的库主要是Requests+BeautifulSoup，Requests库提供了获取网页的函数，BeautifulSoup库帮助我们解析网页，能够让我们快速找到返回的网页中所需要的信息。除此之外，还用了os库输出获取的信息，pandas库用来将获取的信息转换成.csv文件所需要的格式。下面是这次爬虫的全部代码：

import requests
from bs4 import BeautifulSoup
import os
import pandas as pd

kv = {'user-agent':'MoMozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36zilla/5.0'}#headers中的浏览器信息

def getHTMLText(url): #获取网页信息
try:
coo = 'thw=cn; v=0; cna=5X1VFf9fTXQCATGNwJx/mYM8; t=0c7d094551823e1719118c805f9e3725; cookie2=112db93e4fac2151b08a825efb50cff4; _tb_token_=e5b3755745e50; lgc=jhcatharnice; dnk=jhcatharnice; tracknick=jhcatharnice; tg=0; uc3=id2=UU20sZyBQC8Xew%3D