import json
import re
import requests
from requests import RequestException
第一步:获取页面路径:
def get_page(url):
response = requests.get(url)
response.encoding = 'utf-8'
if response.status_code == 200:#页面请求状态值
return response.text
第二步:获取需要的数据:
def parse_page(html):
pattern = re.compile('<li.*?list-item.*?data-title="(.*?)".*?>.*?<li.*?ticket-btn.*?/>.*?',re.S)#正则表达式:可以具体学习一下
items = re.findall(pattern,html)#匹配数据
for item in items:
yield {
'tittle': item[0]
}
最后:执行
def main():
url = "https://movie.douban.com/cinema/nowplaying/nanjing/"
html = get_page(url)
print(parse_page(html))
if __name__ == '__main__':
main()