python : BeautifulSoup 网页HTML 解析器

最新推荐文章于 2024-08-12 17:13:59 发布

翻译最新推荐文章于 2024-08-12 17:13:59 发布 · 1k 阅读

文章标签：

#python #数据分析 #极客

python 专栏收录该内容

301 篇文章

订阅专栏

本文详细介绍了如何使用BeautifulSoup库来解析优快云的极客头条网页，提取标题和链接信息。

BeautifulSoup 善于网页html 解析

请参考: http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html

例如: 抓取优快云极客头条内容 soup.py

import urllib2, re
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen("http://geek.youkuaiyun.com/new")
soup = BeautifulSoup(page)
for h4 in soup.findAll('h4'): 
    if h4.a is not None:
        text = h4.a.text
        href = h4.a.get('href')
        print text
        print href
page.close()