043 Python语法之网络请求urllib

最新推荐文章于 2024-08-17 14:15:26 发布

原创最新推荐文章于 2024-08-17 14:15:26 发布 · 266 阅读

0 ·

CC 4.0 BY-SA版权

python笔记系列专栏收录该内容

47 篇文章

订阅专栏

本文介绍如何使用Python的urllib模块抓取网页数据，包括使用urllib.request.urlopen方法打开URL，读取并解码数据，以及利用正则表达式抓取特定信息如电子邮件地址和股票代码。

urllib模块

方法

urllib.request.urlopen(网址)

打开一个网址，返回一个请求对象(request)

request.read()

返回值是二进制的

request.readline()

返回值是二进制的
需要用 decode(“utf-8”)进行解码

抓取天涯邮箱，逐行读取

import re
import urllib
import urllib.request

mailRegex = re.compile("([A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4})", re.IGNORECASE)
mailList = []
for line in urllib.request.urlopen("http://bbs.tianya.cn/m/post-140-393974-6.shtml"):
    myList = mailRegex.findall(line.decode("utf-8"))
    if myList:
        mailList.extend(myList)

print(mailList)

抓取天涯邮箱，全部读取

import re
import urllib
import urllib.request

mailRegex = re.compile("([A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4})", re.IGNORECASE)
mailList = []
myStr = urllib.request.urlopen("http://bbs.tianya.cn/m/post-140-393974-6.shtml").read()
mailList.extend(mailRegex.findall(myStr.decode("utf-8")))
print(mailList)

股票代码以及股票所在公司名抓取

下载

tup1 = urllib.request.urlretrieve("网址","1.jpg")

urlretrieve()

参数1：网址
参数2：目标地址
返回值一个元组(“存储地址”, “HttpMessage实例”)

股票数据下载

url="http://quotes.money.163.com/service/chddata.html?code=1300133&end=20130523&fields=TCLOSE;HIGH;LOW;TOPEN;LCLOSE;CHG;PCHG;TURNOVER;VOTURNOVER;VATURNOVER;TCAP;MCAP"

链接分析

code=1300133,1代表深市,0代表沪市,后面接着的是股票代码
end=20130523,股票交易日期

下载python库

xml支持

pip install lxml    # lxml支持

处理数据

pip install pandas  # 处理数据

科学计算

pip install numpy   # 科学计算

财经数据接口

pip install tushare # 财经数据接口