用Python爬虫爬取自己要的文章

本文介绍了如何使用Python爬虫从优快云网站抓取技术博客文章,并保存到本地硬盘。通过面向对象编程,分为GetHtmlPage、RePage和SaveText三个类,分别负责获取网页、解析内容和保存文本。正则表达式用于匹配目标信息,最终将文章标题和内容以HTML格式存储。示例代码详细展示了整个过程,适合Python爬虫初学者学习。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

用Python爬虫爬取自己要的文章

在这里插入图片描述

在优快云上有很多精彩的技术博客文章,我们可以把它爬取下来,保存在本地磁盘,可以很方便以后阅读和学习,现在我们就用python编写一段爬虫代码,来实现这个目的。

我们想要做的事情:自动读取博客文章,记录标题,把心仪的文章保存到个人电脑硬盘里供以后学习参考。

过程大体分为以下几步:

  1. 找到爬取的目标网址;

  2. 分析网页,找到自已想要保存的信息,这里我们主要保存是博客的文章内容;

  3. 清洗整理爬取下来的信息,保存在本地磁盘。

打开csdn的网页,作为一个示例,我们随机打开一个网页:

http://blog.youkuaiyun.com/u013088062/article/list/1。

在这里插入图片描述

可以看到,博主对《C++卷积神经网络》和其它有关机计算机方面的文章都写得不错。

爬虫代码按思路分为三个类(class),下面3个带“#”的分别给出了每一个类的开头(具体代码附后,供大家实际运行实现):

在这里插入图片描述

采用“类(class)”的方式属于Python的面向对象编程,在某些时候比我们通常使用的面向过程的编程方便,在大型工程中经常使用面向对象编程。对于初学者来说,面向对象编程不易掌握,但是经过学习习惯之后,会逐步慢慢从面向过程到面向对象编程过渡。

特别注意的是,RePage类主要用正则表达式处理从网页中获取的信息,正则表达式设置字符串样式如下:

在这里插入图片描述

用正则表达式去匹配所要爬取的内容,用Python和其它软件工具都可以实现。正则表达式有许多规则,各个软件使用起来大同小异。用好正则表达式是爬虫和文本挖掘的一个重要内容。

SaveText类则是把信息保存在本地,效果如下:

在这里插入图片描述

用python编写爬虫代码,简洁高效。这篇文章仅从爬虫最基本的用法做了讲解,有兴趣的朋友可以下载代码看看,希望大家从中有收获。 附相关Python代码:

2import re
3import urllib2
4import sys
5#目的:读取博客文章,记录标题,用Htnl格式保存存文章内容
6#版本:python2.7.13
7#功能:读取网页内容
8class GetHtmlPage():
9        #注意大小写
10        def __init__(self,strPage):
11            self.strPapge = strPage
12        #获取网页
13        def GetPage(self):
14                req = urllib2.Request(self.strPapge)            # 建立页面请求
15                rep = req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0")
16                try:
17                   cn = urllib2.urlopen(req)                    #网页请求
18                   page = cn.read()                          #读网页
19                   uPage = page.decode("utf-8")               #网页编码
20                   cn.close()
21                   return uPage
22                except urllib2.URLError, e:                     #捕获异常
23                        print 'URLError:', e.code
24                        return
25                except urllib2.HTTPError, e:                     #捕获异常
26                        print 'HTTP Error:' + e.reason
27                        return
28                return rePage
29#正则表达式,获取想要的内容
30class RePage():
31#正则表达式提取内容,返回链表
32    def GetReText(self,page,recode):
33        rePage = re.findall(recode,page,re.S)
34        return rePage
35#保存文本
36class SaveText():
37    def Save(self,text,tilte):
38        try:
39            t="blog\\"+tilte+".html"
40            f = file(t,"a")
41            f.write(text)
42            f.close()
43        except IOError,e:
44            print e.message
45if __name__ == "__main__":
46    s = SaveText()
47    #文件编码
48    #字符正确解码
49    reload(sys)
50    sys.setdefaultencoding( "utf-8" ) #获得系统的默认编码
51    #获取网页
52    page = GetHtmlPage("http://blog.youkuaiyun.com/u013088062/article/list/1")
53    htmlPage = page.GetPage()
54    #提取内容
55    reServer = RePage()
56    reBlog = reServer.GetReText(htmlPage,r'<span class="link_title"><a href="(.+?)">.*?(\s.+?)</a></span>')   #获取网址链接和标题
57    #再向下获取正文
58    for ref in reBlog:
59        pageHeard = "http://blog.youkuaiyun.com/"         #加链接头
60        strPage = pageHeard+ref[0]
61        tilte=ref[1].replace('<font color="red">[置顶]</font>', "")     #用替换的功能去除杂的英文
62        tilte=tilte.replace("\r\n","").lstrip().rstrip()
63        #获取正文
64        htmlPage = GetHtmlPage(strPage)
65        htmlPageData = htmlPage.GetPage()
66        reBlogText = reServer.GetReText(htmlPageData,'<div id="article_content" class="article_content">(.+?)</div>')
67    #保存文件
68        for s1 in reBlogText:
69            s1='<meta charset="UTF-8">\n'+s1
70            s.Save(s1,tilte)
### 使用 Python 爬虫抓取网页文章的最佳实践 #### 1. 明确目标并分析页面结构 在开始编写爬虫之前,需先明确要抓取的目标数据及其所在位置。通过浏览器开发者工具查看 HTML 结构,定位到所需的文章内容区域[^1]。 #### 2. 尊重网站规则 (robots.txt) 在实施任何抓取操作前,应检查目标站点的 `robots.txt` 文件,了解哪些资源允许被访问,从而避免违反法律或道德规范[^2]。 #### 3. 构建高效的 HTTP 请求 为了减少服务器压力和提高效率,在发送请求时可以设置合理的头部信息(User-Agent),模拟真实用户的浏览行为。此外,还可以加入随机延迟时间以降低频率过高带来的风险[^3]。 ```python import requests from bs4 import BeautifulSoup import time import random headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } def fetch_page(url): try: response = requests.get(url, headers=headers) if response.status_code == 200: return response.text else: print(f"Failed to retrieve page {url}, status code: {response.status_code}") return None except Exception as e: print(f"Error occurred while fetching {url}: {e}") return None time.sleep(random.uniform(1, 3)) # Add a delay between each request. ``` #### 4. 解析与提取数据 利用强大的解析库如 Beautiful Soup 或 lxml 来处理返回的内容,并从中抽取所需的字段。对于复杂布局可能需要更精细的选择器逻辑。 ```python soup = BeautifulSoup(html_content, 'html.parser') articles = soup.find_all('div', class_='article') # Assuming articles are within divs with this class. for article in articles: title = article.h2.a.text.strip() if article.h2 and article.h2.a else "" content = article.p.text.strip() if article.p else "" print({"title": title, "content": content}) ``` #### 5. 存储获取的数据 将收集来的资料保存至文件或者数据库中以便后续使用。这里展示了一个简单的 CSV 导出例子。 ```python import csv with open('output.csv', mode='w', newline='', encoding='utf-8') as file: writer = csv.writer(file) writer.writerow(["Title", "Content"]) for item in data_list: writer.writerow([item['title'], item['content']]) ``` #### 6. 错误处理与日志记录 完善的异常捕获机制能够帮助我们及时发现运行中的问题;而良好的日志体系则便于追踪调试过程。 --- ### 示例总结 上述代码片段展示了从构建基本请求到最后存储结果的一个完整流程。当然实际情况可能会更加复杂,比如遇到动态加载内容等情况,则需要用到 Selenium 这样的自动化测试工具配合完成任务。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值