利用python 实现简单爬虫

最新推荐文章于 2022-03-22 21:01:55 发布

原创最新推荐文章于 2022-03-22 21:01:55 发布 · 789 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #utf-8 #pickle

python 专栏收录该内容

5 篇文章

订阅专栏

本文介绍了一种使用Python的requests库和正则表达式来爬取网易网站首页内容的方法，并将抓取到的链接信息存储为文本文件。

# coding:utf-8
import re
import requests
# 获取网页内容

import pickle

r = requests.get('http://www.163.com')
data = r.text

serialInfo = '';

# 利用正则查找所有连接
link_list =re.findall(r"(?<=content=\").+?(?=\")|(?<=content=\').+?(?=\')" ,data)
for url in link_list:
    serialInfo += url+'----';
    print url

f=open('demo.txt','wb',0)


pickle.dump(serialInfo,f)

obj2 = pickle.load(open("demo.txt", "r"))


print '-------->'
print obj2

f.close()