生活这么苦，用Python爬取搞笑网站段子乐乐

最新推荐文章于 2021-06-30 16:54:04 发布

原创最新推荐文章于 2021-06-30 16:54:04 发布 · 697 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python #程序员 #爬虫 #经验分享 #Python基础入门

爬虫案例专栏收录该内容

13 篇文章

订阅专栏

本文介绍了如何使用Python爬虫从“http://ishuo.cn/”网站抓取搞笑段子。通过分析网站URL结构，发现其反扒机制较弱，便于爬取。分享了简单的Python爬虫代码，并鼓励初学者尝试Python爬虫入门。还提供了Python学习资源，包括电子书、视频教程和项目源码。

在这里插入图片描述

不开心，就爬取个搞笑段子乐乐，众所周知，Python是写爬虫的利器，今天用Python写一个小爬虫爬一个段子网站的众多搞笑段子。

目标段子网站为“http://ishuo.cn/”，我们先分析其下段子的所在子页的url特点，可以轻易发现为“http://ishuo.cn/subject/”+数字，经过测试发现，该网站的反扒机制薄弱，可以轻易地爬遍其所有站点。

现在利用python的re及urllib库将其所有段子扒下

参考代码：

import sys
import re
import urllib
#返回html格式
def gethtml(url):
  page=urllib.urlopen(url)
  html=page.read()
  return html
def getmessage(html):
  p=re.compile(r'<div class="content">(.*)</div><script type="text/javascript">')
  #对段子内容进行正则匹配
  message=re.findall(p,html)#返回正则匹配的结果
  return message
fp=open('data.txt','w+')
#实际范围比1~7000要大，因为时间原因这里暂定为1~7000
for i in range(1,7000):
  i=str(i)
  web=gethtml('http://ishuo.cn/subject/'+i)
  #该网站段子的链接特点
  message=getmessage(web)
  message2=''.join(message)#将结果转换为字符串类型
  #message2=message2.decode('utf8','strict')
  message2=str(message2)
  print message2
  fp.writelines(message2+'\n')
  #将爬下的众多段子写入文件中
fp.close()