bs4 python解析html

最新推荐文章于 2024-10-24 10:10:09 发布

转载最新推荐文章于 2024-10-24 10:10:09 发布 · 64 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/MyNameIsMT/p/5426664.html

文章标签：

#python

本文通过一个具体的实例展示了如何使用Python中的BeautifulSoup库来抓取和解析网页内容。从请求网页到解析HTML标签，文章详细介绍了每一步操作，并分享了关于Python编码问题的一些注意事项。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

python的编码问题比较恶心。

decode解码
encode编码


在文件头设置

# -*- coding: utf-8 -*-
让python使用utf8.

# -*- coding: utf-8 -*-
__author__ = 'Administrator'

from bs4 import BeautifulSoup
import requests
import os
import sys
import io

def getHtml(url):
    r = requests.get(url)
    content = r.content.decode('utf8')
    #print(content)
    soup = BeautifulSoup(content)
    print(soup.find_all('h2'))
    print(soup.find_all('p'))

if __name__=="__main__":

    print(sys.getdefaultencoding())
    print("start.......")
    url = "http://www.jiakaobaodian.com/mnks/exercise/0-c1-kemu1-chengdu.html?id=800000"
    getHtml(url)
    print("end.......")

　　Demo

转载于:https://www.cnblogs.com/MyNameIsMT/p/5426664.html