python 爬虫思想,抓取网站上尽可能多的英文内容文章,去除停用词后,统计频次出现排名前 300~600 的高频词

抓取链接

http://www.chinadaily.com.cn/a/201804/14/WS5ad15641a3105cdcf6518417.html

中英文文章及a标签中URL链接中的英文文章,利用这种迭代再迭代的方法获取网站中几乎所有英文文章

import requests
from bs4 import BeautifulSoup
import time
import random
import os

visited_urls = set()
def get_raw_html(url):
if url not in visited_urls:
time.sleep( 2 )
response = requests.get(url)
visited_urls.add(url)
if response.status_code == 200 :
print( "url:" ,url, "okey" )
return BeautifulSoup(response.text, "html.parser" )
return None

def extract_urls(raw_html):
urls = raw_html.find_all( 'a' )
result = set()
for url in urls:
if url.has_attr( 'href' ) and url[ 'href' ].startswith( 'http://www.chinadaily.com.cn/a/' ): #匹配开头相等字符串
result.add(url[ 'href' ])
return result

def extract_content(raw_html):</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值