用于读取爬虫后的文件

本文演示了如何使用Python解析网页内容,通过正则表达式提取特定信息,并解决中文乱码问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

<pre name="code" class="python"># coding: utf-8
'''
Created on 2014-7-24

@author: Administrator
'''

import urllib2
from urllib2 import Request
import re
import sys

def p(f):
    print '%s.%s(): %s' % (f.__module__, f.__name__, f())
# 返回当前系统所使用的默认字符编码

p(sys.getdefaultencoding)

req=Request('http://www.qiushibaike.com/article/62599902?list=hot&s=4689411')
req.add_header('User-Agent', 'aa')
response = urllib2.urlopen(req)
html = response.read()
#print html
myItems = re.findall('<div.*?class="content".*?title="(.*?)">(.*?)</div>',html,re.S)
print  myItems
for i in myItems:    #myItems是list集合
    for j in range(len(i)):   #i是一个集合    len(i)为2  j的值为0和1
        print i[j]             
        
        


当一起打印的时候 中文就会有乱码,  分开迭代的读取的话 就会正常打印中文,很奇怪


    




                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值