基于Python的简单数据挖掘

最新推荐文章于 2025-10-11 11:15:57 发布

原创

最新推荐文章于 2025-10-11 11:15:57 发布 · 3.6k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#python #数据挖掘 #数据分析

本文介绍了使用Python进行简单数据挖掘的过程，包括爬取网页源码、数据过滤筛选、保存到TXT文档。示例中展示了如何获取和处理百度新闻数据，并提供了爬取不同页面的方法。

基于Python的简单数据挖掘

最近闲着就用Python做了一个简单的数据挖掘,主要是挖掘一些公司的百度新闻数据还有筛选出来保存到TXT文档里面

爬取数据的话方式思路很简单,首先是获取整个网页源码当然不是在浏览器上而是通过代码的方式,python已经为我们封装好了,代码如下

#headers模拟浏览器打开网站,User-Agent的值可以通过在浏览器直接输入chrome://version/获取,其中的用户代理就是
headers = {
   
   'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36'}
url = "https://www.baidu.com/s?rtt=4&bsst=1&cl=2&tn=news&word=阿里巴巴"#要爬取的数据网站rtt=1的话就是默认排序,爬取其他网站的话就自行修改网址和筛序规则就行
res = requests.get(url, headers=headers, timeout=20).text

这样就获取到源码了,接下来就是数据过滤和筛选代码如下

 p_href = '<h3 class="c-title">.*?<a href="(.*?)"' #标题链接的提取,每个网站不一定一样可以通过在网页上右键查看源码的方式获取然后通过正则表达式去筛选
 p_title = '<h3 class="c-title">.*?>(.*?)</a>' #标题提取,方式和链接一样
 p_info = '<p class="c-author">(.*?)</p>' #时间和来源提取
 href = re.findall(p_href, res, re.S)
 title = re.findall(p_title, res, re.S)
 info = re.findall(p_info, res, re.S)

这样就把标题,链接,还有新闻来源以及时间筛选出来了,当然如果各位想要其他数据的话就自行改变筛选规则就行
数据筛选出来后就是把数据保存到文件中代码如下

file1 = open('E:\\数据挖掘报告.txt', 'a') #以追加的方式打开文件,如果不存在就新建
    file1.write(company + '数据挖掘'

最低0.47元/天解锁文章