网络爬虫,python和数据分析学习--part1

本文介绍了一个简单的网页抓取程序,该程序使用Python语言,并利用urllib.request和BeautifulSoup库来抓取指定网页的内容。通过实例演示了如何设置URL、读取网页、解析HTML并获取特定标签的内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

# -- coding: utf-8 --
“””
Created on Tue Oct 10 08:38:20 2017
本段程序为科大王澎老师《网络爬虫,python和数据分析》中P8,针对spyder3做了微调
主要任务:简单的网页抓取
@author:
“””
import re
import urllib.request#urllib2用在python2.7中,在python3中用urllib.request替代之
import pymysql #需要在anaconda3下安装pymysql
from bs4 import BeautifulSoup#注意这里是from bs4
#设置url
url=’http://bbs.ustc.edu.cn/cgi/bbstdoc?board=PieBridge&start=3558
#打开url
fp=urllib.request.urlopen(url)
#读取结果
s=fp.read()
#用BeautifulSoup分析读取结果s
soup=BeautifulSoup(s)
#找到所有tag的内容
polist=soup.findAll(‘span’)
#显示第一个tag中间的内容
print (polist[0].contents[0])

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值