python 爬虫练习

http://www.cbrc.gov.cn/chinese/jrjg/index.html
爬取所有银行的银行名称和官网地址(如果没有官网就忽略),并写入数据库;

import re
from urllib.request import urlopen
from urllib import request

import pymysql


def getbank():
    url = 'http://www.cbrc.gov.cn/chinese/jrjg/index.html'
    user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:62.0) Gecko/20100101 Firefox/62.0'
    req = request.Request(url, headers={'User-Agent':user_agent})
    content = urlopen(req).read().decode('utf-8')
    print("正在爬取地址")
    pattern = r'<a href="(?P<bankaddress>.+)" target="_blank" style="color:#08619D">\s*(?P<bankname>[\u4e00-\u9fa5]+)\s*</a>'
    findbankadd = re.findall(pattern,content)
    print(findbankadd)
    conn = pymysql.connect(user='root',
                           password='971203', charset='utf8', autocommit=True)
    cur = conn.cursor()
    conn.select_db('bank')
    create_sql = 'create table 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值