正则表达式爬取慕课网课程图片

慕课网课程图片爬取

最新推荐文章于 2024-03-30 11:02:52 发布

原创最新推荐文章于 2024-03-30 11:02:52 发布 · 535 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python #正则表达式 #爬虫 #图片

python基础专栏收录该内容

2 篇文章

订阅专栏

本文介绍了一个简单的Python爬虫程序，用于从慕课网抓取课程图片。使用urllib2和re模块，通过正则表达式匹配图片链接，并下载至本地。

这是一个非常简单的爬虫小程序，不过非常有利于对Python正则表达式的理解。
首先，我们确定目标网页
http://www.imooc.com/course/list
我们要用的python模块有urllib2以及re模块：

import urllib2
import re

抓取目标网页：

req = urllib2.urlopen('http://www.imooc.com/course/list')
html = req.read（）

这时候我们发现图片在html文件中的标签是这样的：

<img class="course-banner lazy" data-original="http://img.mukewang.com/5704a5d50001582f06000338-240-135.jpg"

由此，我们就能通过如下方式找到整个页面的全部图片链接：

links = re.findall(r'http:.+\.jpg',html)

随后我发现得到的链接中还有这样的形式：

 'http://img.mukewang.com/56f22f3900012d0206000338-240-135.jpg" src="http://img.mukewang.com/56f22f3900012d0206000338-240-135.jpg',

这显然是不利于我们下载图片的，然后我想到了可以用限制中间的字符的数量来分割链接：

In [56]: links = re.findall(r'http:.+{5,60}\.jpg',html)

这样，就得到了整个网页内所有课程图片的链接，随后，通过一个for循环将图片依次下载到本地：

i = 1
for link in links:
    f = open(str(i) + '.jpg','w')
    req = urllib2.urlopen(link)
    buf = req.read()
    f.wirte(buf)
    i += 1

最后，得到了整个页面的课程图片
这里写图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

火腿烧豆腐

关注关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

正则表达式|爬取百度图片

m0_60701922的博客

09-04

1025

第一步：明确需求，转换图片需求：爬取百度图片中关于头像的图片，并保存网址：https://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word=头像&ie=utf-8&ie=utf-8 观察页面：图片列式以瀑布式罗列，没有一页两页，只有拉动鼠标，不断加载图片，爬取量过大，没有明确数量转换页

【复习】利用正则表达式爬取网站的信息

wwwcaifeng的博客

07-26

786

这个函数开始调用之前的那几个函数了，第二行开始，把网址是url的提取出来源代码给muluyedm，第三行，然后调用第五部分代码的函数，从源代码中提取出来标题和内容，第四行，调用第六部分的函数将第三行获取到的值，赋值到第六部分的函数，保存到本地。第七部分的函数就是保存到本地，意思就是，每一个内容页的绝对网址，提取出标题和内容，保存到本地。这个函数意思就是，你给个url网址，它就返回该网址下网页的源代码，实际上在本爬取的过程中，它用到了两次，一次是获取的目录页的源代码，一次是获取的具体内容页的源代码。

参与评论您还未登录，请先登录后发表或查看评论

爬虫一：用正则表达式爬取图片

12-12

5449

爬虫流程发起请求，通过使用HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，并等待服务器响应。获取响应内容如果服务器能正常响应，则会得到一个Response，Response的内容就是所要获取的页面内容，其中会包含：html，json，图片，视频等。解析内容得到的内容可能是html数据，可以使用正则表达式、第三方解析库如Beautifu...

Python 正则表达式爬取网站图片

CNdota_never_die的博客

04-22

3081

使用正则表达式和 requests 模块前要知识所需模块学习路径 re re模块知识总结 requests request模块学习路径通过 re 和 requests 模块便可完成简单的图片爬取功能。行动开始我们以素材8网站为例，对素材8首页存在的图片进行爬取。 # 首先导入我们所需要用到的包 import re import requests # get 是request里的一个方法它的意思是:从指定的资源请求数据。 ret = requests.get("https

爬取网站图片（1.正则表达式）

qq_43784519的博客

07-17

541

爬取网站图片（1.正则表达式）如果文件夹不存在，就创建文件夹。 path = "E:\\images\\" if os.path.exists(path): pass else: os.mkdir(path) import re import requests import os import urllib.request headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 1

（57）-- 用正则简单爬取图片

Fredreck1919的博客

03-28

439

# 用正则爬取单页图片from urllib import request import re base_url = 'https://tieba.baidu.com/p/5504076850' response = request.urlopen(base_url) html = response.read().decode('utf-8') pat = re.compile('<img ...

中国大学MOOC课程信息爬取（可用）

05-12

中国大学MOOC（慕课）是一个在线教育平台，汇集了众多高校的优质课程，供学习者免费或付费学习。为了获取这些课程的信息，我们可以利用Python爬虫技术来自动化抓取数据。下面将详细介绍如何实现这一过程，以及涉及的...

本爬虫程序旨在从中国大学MOOC爬取相关课程的评论信息.zip

03-01

常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据，如文本、图片、链接等。数据存储：爬虫将提取的数据存储到数据库、文件或其他存储介质中，以备后续分析或展示。常用...

Python爬取中国大学MOOC课程信息

weixin_43108184的博客

06-02

6468

问题：获取中国大学MOOC平台的课程信息，包括开课学校、课程类别（标签）、课程名称、课程评分、评价人数和已参加课程人数。思路： 1.进入中国大学MOOC首页，点击“学校”，进入学校页面（可直接获取单个url） 2.获取页面上所有学校url,保存到列表中（当前页上有所有学校url） 3.依次进入学校页面，获取所有课程的url（不止一页，需要翻页操作） 4.进入课程页面，获取信息，存入列表需要注意的就是几处点击操作，以及准确找到和提取目标文本需要注意的就是几处点击操作，以及准确找到和提取目标文本那

mooc上python课程哪个好_如何爬取中国大学MOOC上的课程信息

weixin_39852647的博客

02-01

875

因为最近需要做一个关于课程类的项目，但苦于没有相关课程的信息及简介。当我在看MOOC上面的Python爬虫课程时，突然想到MOOC上面的课程信息如此完善，我为何不利用下MOOC上面的课程信息呢，说干就干，我随便在MOOC上找到了一页课程信息后，便决定使用Python的requests库去获取课程信息了。课程信息如下image.png一、测试代码如下import requestsprint(requ...

Python re正则表达式爬取京东商品图片.py

04-19

Python re正则表达式爬取京东商品图片，实例源代码代码，部分代码：def geturllist(html): pattern = re.compile(r'data-lazy-img="//(.+?\\.jpg)"',re.M) imglist = re.findall(pattern, html) return imglist

正则表达式爬取图片（request）

weixin_48070777的博客

12-05

526

通过正则表达式实现图片的爬取

正则表达式爬取页面图片(＜img[^＞]*src=“([^“]+))

m0_74455866的博客

03-30

517

正则表达式爬取页面图片(]*src="([^"]+))

实践项目九：抓取慕课网网页的图片到本地

xunalove的博客

08-14

917

今天在慕课网学习正则表达式，后面有一个小例子，简单的爬虫，抓取网页中的图片到本地。这个小例子十分简单，记录一下我遇到的问题。思路： 1.抓取网页。 2.获取图片地址。 3.抓取图片内容并保存在本地。第一步可以用urllib2模块实现，第三步保存在本地也很简单。下面重点说获取图片地址。获取图片地址现在的url比视频的中的有点区别,在网页中看一下图片的url信息：你会发现1和2是同一个

用正则表达式爬取糗图的图片和一些励志语句

wg5foc08的博客

06-13

281

用正则表达式爬取图片并保存到文件中，爬取一些励志名言保存到.txt文件中链接：https://pan.baidu.com/s/1YUMDI1iD_YdkrXDKfNbVGQ 提取码：n87f 链接：https://pan.baidu.com/s/1oZPW6Gsrb5OFr-LfhSokOA 提取码：fnpy 复制这段内容后打开百度网盘手机App，操作更方便哦 ...

Python使用正则表达式爬取网站图片信息

美国梦中国心

12-02

1477

正则表达式来爬虫数据，抓取有用的图片信息。

python爬虫——爬取网页中的图片（正则表达式）

weixin_45890771的博客

01-26

1668

爬取网站：站长之家网址：辞旧迎新，字体超市携各品牌字体一起来送虎年祝福啦！ # import requests import re import os if __name__ == '__main__': # 创建一个文件夹，用于保存所有的图片 if not os.path.exists('./hunian'): os.mkdir('./hunian') headers = { 'User-Agent':'Mozilla/5.0 (Windows NT .

[爬虫]3.数据解析及应用之 正则表达式【爬取网页所有图片】

雾狼的游戏屋

10-12

2248

聚焦爬虫；数据解析方式分类：正则表达式；bs4模块；xpath模块； F12查看网页标签的html格式； 正则表达式详细表示方法；正则匹配； import re； list=re.findall(pattern,string,flags)；创建文件夹；爬取和保存页面所有图片格式；

正则表达式爬虫百度图片

mw的博客

11-09

910

从爬取单个照片到爬取单个页面，再是无限爬取！

正则表达式爬取京东商品图片