用Beautiful Soup抓取数据的小例子

最新推荐文章于 2024-10-23 04:15:58 发布

chezhua19870916

最新推荐文章于 2024-10-23 04:15:58 发布

阅读量191

点赞数

CC 4.0 BY-SA版权

原文链接：https://my.oschina.net/24254134/blog/225470

本文分享了一个使用Python进行网页数据抓取的小例子，通过urllib2和BeautifulSoup库解析了特定网站的结构，展示了如何查找并提取所需信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这是之前的一个小例子，现在记下。越来越觉得学习编程开发，不写笔记不写博客简直就是白学，所以现在把这些记下来。这个抓取的网站无需登录。主要是想记住几个bs函数的用法。

代码如下：

import urllib2
import re
from BeautifulSoup import BeautifulSoup

url="http://www.realestate.com.au/neighbourhoods/brendale-4500-qld"
response=urllib2.urlopen(url)               #获取网站源码
data=response.read()
soup=BeautifulSoup(''.join(data))           #bs的用法，解析网站结构
a=soup.findAll('div',{'class':'slide-section median-price-subsections trend'},text=None)   #find及findAll 在bs中特别有用。可以根据标签和属性找到相应目录
b=a[0].get('data-trend')                    #解析到的结果是一个数组，用get方法可以得到每一个条目的具体属性值
print b

转载于:https://my.oschina.net/24254134/blog/225470