html的url怎么调用数组,pythonhtml解析脚本,接受url数组并输出关于每个url的特定数据...

对于这类任务,我更喜欢HTMLParser,而不是{}。然而,HTMLParser可能有点棘手。我用不可变的对象来存储数据。。。我肯定这样做是不对的。但它在过去为我做过几个项目。在import urllib2

from HTMLParser import HTMLParser

import csv

position = []

results = [""]

class hp(HTMLParser):

def handle_starttag(self, tag, attrs):

if tag == 'span' and ('class', 'watch-view-count ') in attrs:

position.append('bingo')

def handle_endtag(self, tag):

if tag == 'span' and 'bingo' in position:

position.remove('bingo')

def handle_data(self, data):

if 'bingo' in position:

results[0] += " " + data.strip() + " "

my_pages = ["http://www.youtube.com/watch?v=QOdW1OuZ1U0"]

data = []

for url in my_pages:

response = urllib2.urlopen(url)

page = str(response.read())

parser = hp()

parser.feed(page)

data.append(results[0])

# reinitialize immutiable objects

position = []

results = [""]

index = 0

with open('/path/to/test.csv', 'wb') as f:

writer = csv.writer(f)

header = ['url', 'output']

writer.writerow(header)

for d in data:

row = [my_pages[index], data[index]]

writer.writerow(row)

index += 1

然后打开/路径/到/测试.csv在Excel中

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值