CH03

第一步,通过feedparser解析URL为rss,保存在d中,然后在d里的entry里的summary找到博客内容,然后通过自己写一个Wordcount,统计博客内容的各个单词出现的频率,保存在字典wc{}中

#coding=utf-8
import feedparser
import re
def getwordcounts(url):
    d = feedparser.parse(url)
    wc={}
    for e in d.entries: #这里e是每一个entry块,记载了博客的主要内容
        if 'summary' in e:  #这里是找summary这个单词是不是在e里,因此要加‘
            summary = e.summary
        else:
            summary = e.discrption #现在的summary里我已存储好数据
            #该函数在后面定义
            words = getwords(e.title+''+summary) #把summary拆分成一个一个单词
            for word in words:
                wc.setdefault(word,0)
                wc[word]+=1
return d.feed.title,wc #返回的是博客名称,和wcwordcount
    


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值