word frequency counter python 页面词汇频率小代码

遵循Bucky Roberts的教程,创建了一个简单的Python代码,用于抓取网页上的英文词汇并按频率排序。使用requests, BeautifulSoup和operator模块,代码首先将网页内容整理成单词列表,然后用字典记录每个单词的频率,并按频率升序排列。运行结果展示了不同词汇在网页上出现的次数。参考了Bilibili上的多个视频教程。" 111453208,10293219,Python爬虫:解析酷狗音乐Top500榜单,"['Python', '爬虫', '网络爬虫', '数据抓取', '文件处理']

跟着Bucky Roberts 的tutorial写了一个简单的网页词汇频率代码块

目的:根据所给网页,抓取上面的词汇(这里是英语词汇),并按照词汇出现的频率排序

步骤:
1. 创建一个list,将页面上的所有strings放进去
2. 整理list,去除掉特殊符号
3. 创建dictionary,将list内容放进去按照词汇出现的频率排序

需要的模块:requests, BeautifulSoup, operator

代码块及注释如下:

import requests
from bs4 import BeautifulSoup
import operator


url = 'https://www.python.org/events/'

#Step 1: create a list with every word in
def start(url):

    #set up a blank list to store words
    word_list = []
    #get source code from url, pick the content 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值