html的url怎么调用数组,pythonhtml解析脚本，接受url数组并输出关于每个url的特定数据...

一笑很青城

于 2021-06-04 16:14:44 发布

阅读量140

点赞数

文章标签： html的url怎么调用数组

对于这类任务，我更喜欢HTMLParser，而不是{}。然而，HTMLParser可能有点棘手。我用不可变的对象来存储数据。。。我肯定这样做是不对的。但它在过去为我做过几个项目。在import urllib2

from HTMLParser import HTMLParser

import csv

position = []

results = [""]

class hp(HTMLParser):

def handle_starttag(self, tag, attrs):

if tag == 'span' and ('class', 'watch-view-count ') in attrs:

position.append('bingo')

def handle_endtag(self, tag):

if tag == 'span' and 'bingo' in position:

position.remove('bingo')

def handle_data(self, data):

if 'bingo' in position:

results[0] += " " + data.strip() + " "

my_pages = ["http://www.youtube.com/watch?v=QOdW1OuZ1U0"]

data = []

for url in my_pages:

response = urllib2.urlopen(url)

page = str(response.read())

parser = hp()

parser.feed(page)

data.append(results[0])

# reinitialize immutiable objects

position = []

results = [""]

index = 0

with open('/path/to/test.csv', 'wb') as f:

writer = csv.writer(f)

header = ['url', 'output']

writer.writerow(header)

for d in data:

row = [my_pages[index], data[index]]

writer.writerow(row)

index += 1

然后打开/路径/到/测试.csv在Excel中

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。