web_scapy_day2

最新推荐文章于 2025-02-27 17:48:34 发布

285957606

最新推荐文章于 2025-02-27 17:48:34 发布

阅读量177

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/u014691964/article/details/88081209

这个第二天呢，没怎么爬好，也是时间不够充裕吧，我就暂时先随便写一下。
既然要用正则和requests请求，那就肯定先要导入这两个库，由于这个正则我也没怎么学好，所以总是匹配的不准，我又加入了一个BeautifulSoup解析库。

import re
import requests
from bs4 import BeautifulSoup

name_list = []
country_list = []
header = {
    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
}

def get_page(url):
    r = requests.get(url=url,headers=header)
    return r.text
def parsed_page(html):
    soup = BeautifulSoup(html,'html.parser')
    for i in soup.find_all('span',class_="title"):
    #    print(i.text)     #标题
        name_list.append(i.text)
    for i in soup.find_all('p',class_=""):
    #    print(i.text)     #国家
        country_list.append(i.text)
    for i in range(0,20):
        print((name_list[i],country_list[i]))
    
def main():
    urls = []
    for i in range(9):
        url = 'https://movie.douban.com/top250?start='+str(i*25)+'&filter='
        urls.append(url)
    for u in urls:
        url = u
        html = get_page(url)
        parsed_page(html)   
if __name__ == "__main__":
    main()

这时我暂时写的一点代码块，有很多没做好的地方，我后续再修改。
在这里插入图片描述实际上我已经用数组已经把他们都存下来了，也可以用with函数对这些数组储存入文件中。还有编码确实也没做好，数据处理还能够用切片修饰下的，有做的不好的地方，我后续再改