CH03

最新推荐文章于 2024-11-28 11:35:26 发布

原创最新推荐文章于 2024-11-28 11:35:26 发布 · 362 阅读

0 ·

CC 4.0 BY-SA版权

机器学习同时被 2 个专栏收录

36 篇文章

订阅专栏

Python

29 篇文章

订阅专栏

第一步，通过feedparser解析URL为rss，保存在d中，然后在d里的entry里的summary找到博客内容，然后通过自己写一个Wordcount，统计博客内容的各个单词出现的频率，保存在字典wc{}中

#coding=utf-8
import feedparser
import re
def getwordcounts(url):
    d = feedparser.parse(url)
    wc={}
    for e in d.entries: #这里e是每一个entry块，记载了博客的主要内容
        if 'summary' in e:  #这里是找summary这个单词是不是在e里，因此要加‘
            summary = e.summary
        else:
            summary = e.discrption #现在的summary里我已存储好数据
            #该函数在后面定义
            words = getwords(e.title+''+summary) #把summary拆分成一个一个单词
            for word in words:
                wc.setdefault(word,0)
                wc[word]+=1
return d.feed.title,wc #返回的是博客名称，和wcwordcount