用Beautiful Soup抓取数据的小例子

最新推荐文章于 2024-10-23 04:15:58 发布

LeocenaY

最新推荐文章于 2024-10-23 04:15:58 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

文章标签： python Beautiful Soup

本文链接：https://blog.youkuaiyun.com/changqing1234/article/details/24358635

本文记录了在编程开发过程中使用BeautifulSoup抓取网站数据的实践经验，包括导入必要的库、打开URL获取网页源码、解析网站结构以及利用find和findAll函数定位目标信息。通过实例演示，强调了编写笔记与博客对于巩固知识的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这是之前的一个小例子，现在记下。越来越觉得学习编程开发，不写笔记不写博客简直就是白学，所以现在把这些记下来。这个抓取的网站无需登录。主要是想记住几个bs函数的用法。

代码如下：

01
import urllib2

02
import re

03
from BeautifulSoup import BeautifulSoup

04
 
05
url="http://www.realestate.com.au/neighbourhoods/brendale-4500-qld"

06
response=urllib2.urlopen(url)               #获取网站源码

07
data=response.read()

08
soup=BeautifulSoup(''.join(data))           #bs的用法，解析网站结构

09
a=soup.findAll('div',{'class':'slide-section median-price-subsections trend'},text=None)   #find及findAll 在bs中特别有用。可以根据标签和属性找到相应目录

10
b=a[0].get('data-trend')                    #解析到的结果是一个数组，用get方法可以得到每一个条目的具体属性值

11
print b