简单的python2.7基于bs4和requests的爬虫

最新推荐文章于 2025-08-13 19:22:41 发布

weixin_34194317

最新推荐文章于 2025-08-13 19:22:41 发布

阅读量130

点赞数

文章标签：爬虫 python

本文介绍了一个Python爬虫示例，演示了如何通过decode和encode处理网页编码问题，并使用BeautifulSoup解析HTML内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

python的编码问题比较恶心。

decode解码
encode编码


在文件头设置

# -*- coding: utf-8 -*-
让python使用utf8.

# -*- coding: utf-8 -*-
__author__ = 'Administrator'
 
from bs4 import BeautifulSoup
import requests
import os
import sys
import io
 
def getHtml(url):
    r = requests.get(url)
    content = r.content.decode('utf8')
    #print(content)
    soup = BeautifulSoup(content)
    print(soup.find_all('h2'))
    print(soup.find_all('p'))
 
if __name__=="__main__":
 
    print(sys.getdefaultencoding())
    print("start.......")
    url = "http://www.jiakaobaodian.com/mnks/exercise/0-c1-kemu1-chengdu.html?id=800000"
    getHtml(url)
    print("end.......")