文章目录
研究背景
高血压是全球常见的慢性疾病,是心血管疾病的主要风险因素,严重影响健康。由于高血压早期常无明显症状,传统的血压测量方法难以提前预测风险。因此,早期预测和干预至关重要。
在现如今社会高速发展的情况下,人们的生活水平越来越高,在追求精神和物资丰富的同时,疾病也在悄然而至。所以在这个情况下,我们需要对高血压,高血糖,高胆固醇等一系列祸从口入的疾病进行研究,随着大数据和人工智能的发展,通过多维数据(如生活方式、遗传因素等)建立预测模型,能够更准确地评估个体的高血压风险。这为个性化预防和治疗提供了基础,有助于提高健康管理效率,减少高血压及其并发症的发生。本文就是对高血压风险预测。
数据可视化展示
本文所用到的数据集是来自https://www.heywhale.com/mw/dataset/6736f8d20bb59b78302c1397/content
高血压与各个特征的关系
由热力图可以知道每一个特征与高血压患病的风险的关系,其中可以看出年龄,血管的舒张与收缩的压强有关,接下来我们将对个别数据关系进行可视化。
年龄与高血压的关系
由图看出来,在随着年龄的增加,人们患高血压的风险越来越高,其中中年人患高血压的风险最高,所以对中老年人高血压检测是很必要的。
收缩压(高压)与舒张压(低压)与患高血压的关系
医学上规定收缩压大于140mmHg,舒张压小于90mmHg的是高血压,由图也可以轻易看出来收缩压和舒张压越高,患高血压的风险就越大。
整体架构流程
导入必要的库
#分类任务
import sklearn
import numpy as np
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split #划分数据集
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score,confusion_matrix
from sklearn.metrics import roc_curve, auc
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
plt.rcParams['font.family'] = 'simhei' # 可以让图像中显示中文(黑体),无需引用
plt.rcParams['axes.unicode_minus'] = False
数据分析预处理
"'数据预处理'"
df = pd.read_csv(r"C:\Users\lenovo\Desktop\zxd\作业\机器学习实践\高血压数据集\Hypertension-risk-model-main.csv")
# print(df.shape) #查看数据大小为(4241,13)
# print(df.isnull().sum()) #查看每一类的缺失值 # print(df