基于Python的简单数据挖掘

本文介绍了使用Python进行简单数据挖掘的过程,包括爬取网页源码、数据过滤筛选、保存到TXT文档。示例中展示了如何获取和处理百度新闻数据,并提供了爬取不同页面的方法。

基于Python的简单数据挖掘

最近闲着就用Python做了一个简单的数据挖掘,主要是挖掘一些公司的百度新闻数据还有筛选出来保存到TXT文档里面

爬取数据的话方式思路很简单,首先是获取整个网页源码当然不是在浏览器上而是通过代码的方式,python已经为我们封装好了,代码如下

#headers模拟浏览器打开网站,User-Agent的值可以通过在浏览器直接输入chrome://version/获取,其中的用户代理就是
headers = {
   
   'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36'}
url = "https://www.baidu.com/s?rtt=4&bsst=1&cl=2&tn=news&word=阿里巴巴"#要爬取的数据网站rtt=1的话就是默认排序,爬取其他网站的话就自行修改网址和筛序规则就行
res = requests.get(url, headers=headers, timeout=20).text

这样就获取到源码了,接下来就是数据过滤和筛选代码如下

 p_href = '<h3 class="c-title">.*?<a href="(.*?)"' #标题链接的提取,每个网站不一定一样可以通过在网页上右键查看源码的方式获取然后通过正则表达式去筛选
 p_title = '<h3 class="c-title">.*?>(.*?)</a>' #标题提取,方式和链接一样
 p_info = '<p class="c-author">(.*?)</p>' #时间和来源提取
 href = re.findall(p_href, res, re.S)
 title = re.findall(p_title, res, re.S)
 info = re.findall(p_info, res, re.S)

这样就把标题,链接,还有新闻来源以及时间筛选出来了,当然如果各位想要其他数据的话就自行改变筛选规则就行
数据筛选出来后就是把数据保存到文件中代码如下

file1 = open('E:\\数据挖掘报告.txt', 'a') #以追加的方式打开文件,如果不存在就新建
    file1.write(company + '数据挖掘' 
### 使用Python进行医疗数据挖掘 #### 数据挖掘概述 数据挖掘是一种通过分析大量数据来提取有用模式的技术。在医疗领域,数据挖掘可以应用于疾病预测、患者分组、药物效果评估等方面[^1]。 #### Python中的常用库 对于医疗数据挖掘,常用的Python库包括但不限于以下几种: - **Pandas**: 提供高效的数据结构和数据分析工具。 - **NumPy**: 支持多维数组对象以及各种派生对象(如掩码数组和矩阵)。 - **Scikit-Learn**: 是一个强大的机器学习库,支持分类、回归、聚类等多种算法。 - **Matplotlib/Seaborn**: 可视化工具,帮助理解和展示数据特征。 #### 示例代码:基于糖尿病患者的健康状况预测模型 下面是一个简单的例子,演示如何利用`scikit-learn`构建一个逻辑回归模型,用于预测糖尿病的可能性: ```python import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score, confusion_matrix # 加载数据集 (假设我们有一个名为diabetes.csv的文件) data = pd.read_csv('diabetes.csv') # 查看前几行数据 print(data.head()) # 特征与目标变量分离 X = data.drop(columns=['Outcome']) # 'Outcome' 列表示是否有糖尿病 y = data['Outcome'] # 将数据分为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 创建并训练逻辑回归模型 model = LogisticRegression() model.fit(X_train, y_train) # 预测测试集的结果 predictions = model.predict(X_test) # 计算准确率和其他指标 accuracy = accuracy_score(y_test, predictions) confusion_mat = confusion_matrix(y_test, predictions) print(f"Accuracy: {accuracy * 100:.2f}%") print("Confusion Matrix:") print(confusion_mat) ``` 上述代码展示了如何加载数据、分割数据集、训练模型以及评估其性能[^2]。 #### 医疗数据挖掘的具体应用场景 除了基本的疾病预测外,还可以尝试更复杂的任务,比如时间序列分析(监测病患生命体征变化)、自然语言处理(解析医生笔记或报告)。这些高级技术通常依赖于深度学习框架,例如TensorFlow或PyTorch[^3]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值