网页爬虫与正则匹配
实现原理
利用requests访问网站获取html,用re正则表达式匹配并处理字符
代码
# -*- coding: utf-8 -*-
#上面一行告诉编译器要用的编码格式。这样即使有中文也不会有问题
import re
import requests
response = requests.get('https://www.quora.com/Is-online-education-overrated') #要爬取的网页
f = open("words.txt", "a") #以读写模式创建/打开文件
data = response.text #用文字表示网站源码,编码格式可以改的
title = ' '.join(re.findall('<title>(.*?)</title>',data)