Requests+BeautifulSoup编写爬虫程序爬取历史彩票数据，成功！【人生第一个！】

最新推荐文章于 2025-10-12 13:42:51 发布

原创

最新推荐文章于 2025-10-12 13:42:51 发布 · 505 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python

本文记录了一个初学者编写人生首个爬虫程序的过程，使用了Requests和BeautifulSoup库来爬取彩票网站的历史数据。从确定爬取目标、设置请求头、解析HTML到存储数据到CSV文件，作者分享了遇到的问题和解决方法，强调在遇到困难时及时寻求外部资源帮助的重要性。

人生编写的第一个爬虫程序，以兹纪念！

拖着老身子骨熬夜盯屏幕敲键盘，感觉死了无数脑细胞，掉了好多头发，眼睛也要老眼昏花了！

一点体会就是，不要钻牛角尖，没思路的时候赶紧去看帖子，找视频看看！自己盯着屏幕憋不出来的，憋出来的也是效率太低。

言归正传，静态网页爬取是基础，所以爬虫就找个静态网页练练手，彩票网绝对是首选啊！（第一步完成）哈哈
第二步：确定爬取目标：具体就是用chrome浏览器，鼠标放在要选取内容上，右键检查，找到标签。
第三步：把网页内容都弄下来（用request.get()，注意要不要headers,需要的话还是右键检查，去代码里找，粘贴复制）
第四步：作汤！find(),find_all()确定你要的标签位置，注意得到的结果不唯一的时候，类型是列表！列表！可以用列表【数字】.get_text()获取标签内容，否则容易出错的！我就是这里卡了下！
第五步：将爬取的内容形成一个列表a=[b,c,d]
第六步：将爬取内容存到CSV里头，用unicodecsv，也可以用其它的包，看个人熟悉程度。

看到爬出来的1983条数据，还是有点成就感的！

from bs4 import BeautifulSoup
import requests
import unicodecsv as csv

red_ball = []
blue_ball = []
ball_date = []
result = []
one_result = []
r_result = []
b_result = []
url_all = []


def get_url():
    for l in range(7001, 7094):
        url1 = 'http://kaijiang.500.com/shtml/dlt/' + '%05d' % l + '.shtml'
        url_all.append(url1)
    for k in range(8001, 8155):
        url2 = 'http://kaijiang.500.com/shtml/dlt/' + '%05d' % k + '.shtml'

最低0.47元/天解锁文章