初学python 爬虫

在python3中有一个 urllib模块,使用urllib 这个模块来进行简单的爬虫。

from urllib import request     #引用这个模块

import re

 

def  getObject(url): 

 urlObject = request.urlopen(url)     #打开一个url,获得http请求的上下文,也就是 http reponse 对象

return getObject

def getjpglist(data):                #使用正则表达式,匹配图片路径

 list = re.findall(r'src = https.+?.jpg',data)

 return list

 

httpObject = getObject("https://www.youkuaiyun.com/")      #得到这个http reponse对象

#httpObject .geturl()    可以得到地址

#httpObject .info()  获得headers

#httpObject .getcode()   获得http的状态

data = httpObject .read().decado('utf-8')   #得到内容,得到内容之后我们就可以用正则筛选自己想要的东西

     jlist = getjpglist(data)

global n    #声明一个全局变量

for jpg in jlist :        #循环得到的图片地址的集合,打印出来

  print(list)

  n = n+1

# 如果想要下载图片可以使用   request.urlretrieve() 方法

 

 

 

 

 

 

 

 

 

### Python 爬虫基础知识与入门教程 #### 学习路径规划 对于零基础的学习者来说,制定合理的学习路线至关重要。建议按照以下顺序逐步深入理解Python爬虫技术[^1]。 - **掌握编程语言**: 首先熟悉Python基本语法及其常用数据结构。 - **了解网络协议**: 掌握HTTP/HTTPS的工作原理以及URL的概念。 - **学习HTML/CSS/XML解析**: 能够熟练运用BeautifulSoup、lxml等工具提取网页信息。 - **实践项目经验积累**: 从简单的单页面抓取到复杂的动态加载网站处理,不断挑战更高难度的任务。 #### 工具库介绍 在实际开发过程中,`urllib` 和 `requests` 是两个非常重要的第三方模块用于发起请求并获取响应内容[^3]: ```python import requests try: response = requests.get('https://www.python.org') print(f"Status Code: {response.status_code}") print(response.text[:100]) # 打印前100字符作为示例展示 except Exception as e: print(str(e)) ``` 这段代码展示了如何利用`requests`库来访问指定网址,并捕获可能出现的各种异常情况。 #### 构建简单爬虫实例 当具备了一定理论知识之后就可以尝试构建自己的第一个简易版爬虫程序了。下面是一个基于Scrapy框架改造而成的支持分布式的版本说明[^2]: - 更改原有的Spider类定义方式; - 删除原有固定的起始链接列表(`start_urls`); - 添加新的属性项`redis_key`以便后续操作时能够识别特定任务队列; 以上改动使得原本独立运行的小型应用转变为了可扩展性强且易于管理的大规模集群作业形式。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值