第一步,通过feedparser解析URL为rss,保存在d中,然后在d里的entry里的summary找到博客内容,然后通过自己写一个Wordcount,统计博客内容的各个单词出现的频率,保存在字典wc{}中
#coding=utf-8
import feedparser
import re
def getwordcounts(url):
d = feedparser.parse(url)
wc={}
for e in d.entries: #这里e是每一个entry块,记载了博客的主要内容
if 'summary' in e: #这里是找summary这个单词是不是在e里,因此要加‘
summary = e.summary
else:
summary = e.discrption #现在的summary里我已存储好数据
#该函数在后面定义
words = getwords(e.title+''+summary) #把summary拆分成一个一个单词
for word in words:
wc.setdefault(word,0)
wc[word]+=1
return d.feed.title,wc #返回的是博客名称,和wcwordcount