使用模糊主成分分析对日本健康进行分析
摘要
日本人口为1.28亿,15岁以下人口数量已少于65岁及以上老年人口,因此日本人口金字塔呈现扭曲状态。随着65岁以下人口的减少,65岁及以上人口却在增加。日本主要健康保险机构报告称,在总额约为1.184万亿日元的财政医疗支出中,与生活方式相关的医疗费用约为1.791万亿日元,约占总支出的15%。这是一笔不可忽视的巨大开支。因此,我们曾通过回归模型分析了医疗费用与食物摄入之间的关系,结果已在InMed‐14中报告。此外,我们还利用回归模型分析了五年间门诊患者人数与食物摄入之间的关系,因为生活方式是通过持续的食物摄入形成的。尽管上述分析已取得一定结果,但仍需进一步分析各因素之间的相互关系。因此,本文采用主成分分析对这些因素之间的关系进行分析。
关键词 :医疗保健 ⋅ 医疗护理成本 ⋅ 生活方式相关疾病 ⋅ 模糊回归模型 ⋅ 模糊主成分分析
1 引言
日本人口为1.28亿,15岁以下人口少于65岁及以上的老年人。因此,日本的人口金字塔出现扭曲。随着65岁以下人口的减少,65岁及以上人口不断增加。
2012年,财政医疗总支出中有15.13%用于与生活方式相关的医疗保健成本,这代表了相当大的经济负担。
厚生劳动省指出,生活方式相关疾病不仅是缩短健康寿命的最主要因素,而且对国家医疗支出的影响也最为显著[4]。通过适度的日常锻炼、均衡饮食和不吸烟可以预防生活方式相关疾病。
因此,我们利用厚生劳动省2008年厚生劳动省年度卫生劳动福利报告 [17],讨论了医疗费用与体检受检人数、按都道府县划分的饮食等因素之间的关系。此外,我们还探讨了患者人数与体重指数、按都道府县划分的食物摄入量等因素之间的关系[18]。
一般来说,与个人相关的统计数据分布较为分散,因此很难准确描述目标系统的特征。为此,我们采用了模糊稳健回归模型进行这些分析,因为即使数据存在较大模糊性,该模型也能阐明目标系统的可能性。这些分析让我们认识到两点:日式饮食具有良好的营养平衡,且从中获取的营养恰好适量。
这意味着,随着饮食西化,餐食和乳制品等食物的摄入机会增加,导致营养摄入过量,从而成为引发生活方式相关疾病的原因之一。
我们仍需分析这些因素之间的关系。因此,本文通过模糊主成分分析 [13]来分析这些因素之间的关系。
本文结构如下:第2节介绍我们的模糊稳健回归模型的定义。该模糊稳健回归模型能够消除异常样本的影响,并描述焦点系统的可能性。第3节展示两项分析的结果。第一项分析探讨了医疗费用与反映个人生活方式的因素(如体检受检人数和按都道府县划分的饮食)之间的关系。第二项分析探讨了门诊患者数量与生活方式因素之间的关系。在第4节中,我们使用模糊主成分分析讨论生活方式因素之间的关系。
2 模糊稳健回归模型
基于区间的模糊回归模型的目标是描述系统的可能性。在此模型中,可能性由一个区间表示,该区间包含从系统中观察到的全部数据[9, 10]。远离数据中心的样本会扭曲模型的形状。
在构建可能性回归模型时,强调了系统中心位置的关键作用,而不是使用区间来描述焦点系统的可能性。Tanaka和Guo采用指数型可能性分布用于
他们的模型[10],而井口等人[1]以及矢吹和渡田[14–16]则各自独立地致力于使可能性分布的中心与可能性回归模型的中心相一致。
矢吹和渡田提出的模型通过模糊回归模型的中心来描述系统的可能性。该模型符合直观理解,因为它使模型的中心与系统的中心相重合。该模型通过最大化由模型估计值和数据得出的可能性等级之和来构建。因此,该模型可以使用信息粒或模糊数据构建,因为模型能够处理信息粒和模糊数据。
当构建模型时,异常样本对模糊系数有很大影响。根据经验,我们可以采用以下目标函数进行线性规划。
$$
\max Z = \alpha \sum_{i=1}^{n} \mu’(y_i, x_i) - (1 - \alpha)\gamma \sum_{i=1}^{n} W_i, \quad (1)
$$
其中 $\alpha$, $0 \leq \alpha \leq 1$ 是反映在最大化可能性等级与最小化模型的模糊程度之间决策的参数。$\gamma$ 是用于调节可能性等级总和与模型模糊程度之间差异的调参参数。并且,在目标函数(1)中采用以下可能性等级:$\mu’(y_i, x_i)$
$$
\mu(y_i, x_i) = \sum_{i=1}^{n} \max{0, \delta - |Y_i^C - y_i| / W_i}
$$
其中,正实数值 $\delta$ 是通过启发式方法确定的。在获得系数后,可能性等级应在区间 $0 \leq \mu(y_i, x_i) \leq \delta$ 到 $0 \leq \mu(y_i, x_i) \leq 1$ 内进行缩放。结果导致部分数据位于可能性区间之外。
这里,当 $\alpha = 0$ 和 $\gamma = 1$ 时,我们得到一个传统的模糊回归模型。
3 医疗与生活方式之间关系的分析
3.1 按日本都道府县划分的医疗费用分析
根据总务省统计局2013年10月1日的人口估算,日本人口总数约为1.28亿。与前一年相比,三个年龄组人口的变化如下:14岁以下儿童减少了16万,15至64岁的劳动年龄人口减少了117万
百万,65岁以上人口增加了104万。截至2013年10月1日,1965年前出生人口超过了3000万。
图1显示了1950年至2010年间日本人口三个年龄组的变化情况。老年人口在1997年超过了儿童人口。自此以后,65岁及以上人口持续增加,而0‐14岁人口不断减少。因此,日本人口结构发生了变化,人口金字塔出现扭曲。尽管社会结构正在发生这种变化,但尚未能充分应对这一变化带来的影响。在这种情况下,老年人口的健康问题具有重要的经济意义。2010年,厚生劳动省报告称,国家医疗卫生支出(即支付给医疗机构的治疗疾病或伤害的医疗费用总额)达到38万亿5850亿日元[4]。这相当于人均约30万日元。
国家医疗支出自2006年以来已连续五年增长。
生活方式相关疾病与我们息息相关,因为其在国家医疗支出中的医疗成本高得不容忽视。2012年,财政医疗总支出为1.184万亿日元,与生活方式相关的医疗成本为1791亿日元,占15.13%。住院患者占总数的19.35%,门诊患者占80.65%。他们占据了与生活方式相关的医疗成本的80%。人均生活方式相关疾病的保健费用为14407日元。
了解患者人数使我们能够估算医疗费用的规模,因为医疗费用与患者人数之间的相关系数约为0.996。然而,这并非我们分析的目的。本分析的目的是利用县级数据,了解医疗检查次数和饮食对公民健康的影响。
国家医疗支出可作为健康影响的替代指标。回归分析使用了体检受检人数以及鲜鱼、贝类、肉类、蔬菜、油类和调味品等37种食品的数量。
尽管日本有47个县,但存在38个解释变量。因此,并非所有解释变量都用于本次分析;而是从这38个变量中选取适当的解释变量进行回归分析。虽然应考虑营养平衡,但本文讨论的是各都道府县医疗成本与食物摄入之间的关系。采用聚类分析将解释变量分为三组,并根据相关系数及其特征选取消费量较高的五种食物、金枪鱼、真鲷、黄油、新鲜水果和食用油。除这五种食物外,还将健康体检受检人数纳入回归分析。医疗支出为因变量Y。回归模型的解释变量如下:健康体检受检人数为X1,,金枪鱼消费为X2,,真鲷消费为X3,,黄油消费为X4,,新鲜水果消费为X5,,食用油消费为X6。这些变量的平均值见表1。
| 医疗支出 | 6.579(十万日元) |
|---|---|
| 健康检查受检者 | 7.307(一万人) |
| 金枪鱼消费 | 2.221 (千克) |
| 真鲷消费 | 0.849 (千克) |
| 黄油消费 | 4.526 (100克) |
| 新鲜水果消费 | 9.494 (千克) |
| 食用油消费 | 8.809 (千克) |
使用最小二乘法的统计回归模型以及基于这些变量的模糊稳健回归模型被建立。统计模型YS1如下所示:
$$
Y_{S1} = 5.998 - 0.025X_1 - 0.237X_2 + 0.267X_3 - 0.234X_4 + 0.149X_5 + 0.081X_6
$$
医疗检查受检人数较多的都道府县,其医疗支出较小。金枪鱼含有EPA、DHA、烟酸和矿物质,据称有助于预防生活方式相关疾病。然而,在日本,金枪鱼主要以生食方式食用,且食用量并不大。黄油含有大量卡路里和胆固醇。但由于日本人口对黄油的摄入量较少,因此其健康影响较小。此外,黄油含有丰富的维生素和矿物质,其营养价值正被重新肯定。食用较多金枪鱼和黄油的都道府县医疗支出较低,这在直觉上是合理的。真鲷富含EPA、DHA、肌苷酸和牛磺酸,有助于降低胆固醇。水果既含有维生素也含有糖分。食用油在现代饮食中不可或缺,但因过量摄入引发的健康问题较为严重。
考虑到这些事实,我们可以理解都道府县
使用模糊稳健回归模型 $Y_{R1}$ 来描述数据。
$$
Y_{R1} = (4.929, 0, 0) + (-0.020, 0.000, 0)X_1 + (-0.175, 0, 0)X_2 + (0.517, 0, 0)X_3 + (-0.289, 0, 0)X_4 + (0.242, 0.045, 0.056)X_5 + (0.076, 0.000, 0.000)X_6
$$
其中,模糊稳健回归模型的系数为非对称三角模糊数,参数 $\alpha$ 取值为0.7,且 $\delta$ 在公式(1)中取值为3。构建模糊稳健回归模型以最大化模型与数据的可能性等级之和,并使模型与数据分布的中心重合。在此分析中,由于模型的模糊性增加,模型与数据之间的包含关系减弱。因此,模型的模糊程度不大。
与统计模型相比,各个系数存在一些差异;然而模糊稳健回归模型和统计模型的中心彼此相差不大。此外,食用油和新鲜水果的模糊性通过模型的模糊程度增加得以体现。
我们的模糊稳健回归模型经过调整,以降低模型的模糊性,从而更好地描述数据分布。
| YS1 | YR2 | |
|---|---|---|
| 模糊回归系数的宽度之和 | – | 0.101 |
| 模型与数据的可能性等级之和 | – | 23.312 |
| 观测数据与模型中心的相关系数 | 0.789 | 0.771 |
表2显示了使用数据和模型得到的模糊回归系数之和、可能性等级之和,以及观测值与模型中心之间的相关系数。我们的模型对医疗支出的描述精度与统计模型基本相同。因此,采用模糊稳健回归模型讨论了医疗支出、食品消费和体检人数之间的关系。
体检人数、金枪鱼和黄油消费降低医疗支出,而真鲷、新鲜水果和食用油的消费增加医疗支出。
3.2 生活方式行为分析
在上一节中,分析了各都道府县的生活方式与医疗支出之间的关系。通过该分析发现,真鲷、新鲜水果和食用油的消费会增加医疗支出
体检人数以及金枪鱼和黄油的消费会降低医疗支出,而真鲷、新鲜水果和食用油的消费则会增加医疗支出。
一般来说,我们的健康来自于日常生活。换句话说,持续的生活方式会影响健康,不良的生活方式会导致健康危害。因此,本节通过回归模型分析生活方式与健康之间的关系。数据来源于国立健康与营养研究所实施的1995年至1999年国民健康与营养调查[7]中的生活方式相关信息,作为表示生活方式的自变量。而来自日本厚生劳动省实施的1999年患者调查[3]中的患者人数,则作为表示健康状况的因变量。
换句话说,我们讨论了各都道府县门诊患者人数与五年后生活方式之间的关系。在此回归分析中,我们采用门诊患者的标准化值作为Y,身体质量指数(BMI,千克/米²)作为X₁,,大米摄入量(克/天)作为X₂,,肉类摄入量(克/天)作为X₃,,牛奶及其制品摄入量作为X₄。
使用最小二乘法的统计回归模型以及基于这些变量的模糊稳健回归模型被建立。通过最小二乘法得到以下统计模型YS2:
$$
Y_{S2} = -0.362X_1 - 0.389X_2 + 0.205X_3 + 0.175X_4
$$
身体质量指数(BMI)和大米摄入量减少了都道府县的门诊患者数量。
身体质量指数(BMI)是基于身高和体重衡量身体状况的指标。BMI分数是广为人知的用于定义体型的指数:18.5–24.9为正常;低于18.5为体重过轻;25.0–29.9为超重;超过30.0为肥胖。BMI分数受不良饮食、体重与身高比例失衡等因素的显著影响。虽然18.5–24.9的BMI分数属于理想范围,但BMI并非适用于所有体质的理想标准。尽管BMI通常与体脂相关,但它并不能直接衡量体脂水平。
此外,身体质量指数(BMI)与心脏病之间的关系呈U型曲线,BMI分数在22.5–25.0之间时死亡率最低[11]。当BMI超过25.0时,肥胖和心血管疾病的风险均会增加。
此外,肉类摄入和牛奶摄入增加了各都道府县的门诊患者数量。日本饮食的主食是大米,蛋白质和碳水化合物主要来自大米,直到大约1955[6, 8]。此后,作为主食的大米消费量减少;来自动物蛋白的摄入则从肉类和乳制品等副食中增加。
综上所述,所获得的统计模型是可接受的。
接下来,让我们使用模糊稳健回归模型来描述数据。得到的以下模糊稳健回归模型YR2为:
$$
Y_{R2} = (0.297, 0.363, 0.388) + (0.430, -0.464, 0.315)X_1 + (0.282, -0.300, 0.341)X_2 + (0.371, 0.273, 0.300)X_3 + (0.310, 0.206, 0.292)X_4
$$
| YS2 | YR2 | |
|---|---|---|
| 模糊回归系数的宽度之和 | – | 2.217 |
| 模型与数据的可能性等级之和 | – | 20.751 |
| 预测值宽度之和 | – | 87.443 |
| 观测数据与模型中心的残差平方和 | 22.163 | 29.046 |
| 观测数据与模型中心的相关系数 | 0.720 | 0.712 |
其中参数 $\alpha$、$\gamma$ 和 $\delta$ 分别取值为0.3、40和1.5。在我们的模型中,与统计模型相比,身体质量指数(BMI)对门诊患者数量的影响大于大米摄入量的影响。然而,我们模型中X₃的系数中心比统计模型更大。肉类中含有的左旋肉碱可能导致动脉硬化和心血管疾病[2]。此外,针对日本人的调查显示,乳制品中的钙摄入虽然降低了脑梗塞风险和中风风险,但缺血性心脏病的风险却有所增加[12]。
我们的模糊稳健回归模型经过调整,以降低模型的模糊性,从而更好地描述数据分布。
表3显示了这两个模型的特征。我们模型的参数 $\delta$ 与隶属函数的 $\alpha$‐截集相同。因此,部分数据位于我们模型的可能性区间之外,模型与数据的可能性等级之和较小。然而,我们模型的残差平方和并不大,复相关系数几乎相同。与统计模型相比,我们模型中心的统计评估值不高;但作为可能性模型,其预测精度良好。
在我们的模型中,身体质量指数(BMI)对减少门诊患者的影响最大;大米摄入量是减少门诊患者的第二大因素。肉类摄入、牛奶和每日摄入量的增加会导致门诊患者增多。
换句话说,BMI分数较低且采用日本饮食的都道府县,其门诊患者数量较少。此外,肉类、牛奶和乳制品摄入量较多的都道府县,门诊患者数量较多的趋势较为明显。
4 生活方式因素分析
在上一节中,介绍了两项与生活方式相关的分析。第一项分析以医疗费用为因变量,以生活方式因素为解释变量进行回归分析。同样,第二项分析以门诊患者数量为因变量,以生活方式因素为解释变量进行回归分析。
在这两项分析中,我们也考虑了变量选择的相关系数。然而,我们并未讨论变量之间的关系。
由于我们在两项分析中讨论了生活方式,本文使用模糊主成分分析来分析表示生活方式的变量之间的关系。换句话说,由于我们关注的是导致生活方式相关疾病的因素,因此我们分析显示肥胖人群生活方式的因子。
在这里,很难获得能够反映肥胖人群生活方式的因素。在这种情况下,模糊主成分分析有助于我们进行这些分析。
因此,在本文中,我们使用模糊主成分分析来讨论变量之间的关系。模糊主成分分析是一种用于分析所考虑的模糊集的方法。
设 $X_{\omega,i}(\omega = 1, 2, …, n; i = 1, 2, …, p)$ 表示样本。由其隶属函数 $\mu_A(\omega)$ 定义的模糊集 $A$。模糊集 $N(A)$ 的幂,第 $i$ 个变量的模糊均值 $m_i$,以及第 $i$ 个和第 $j$ 个变量之间的模糊协方差 $v_{ij}$ 分别写为如下形式:
$$
\begin{aligned}
N(A) &= \sum_{\omega=1}^{n} \mu_A(\omega), \
m_i &= \frac{1}{N(A)} \sum_{\omega=1}^{n} X_{\omega,i} \mu_A(\omega), \
v_{ij} &= \frac{1}{N(A)} \sum_{\omega=1}^{n} (X_{\omega,i} - m_i)(X_{\omega,j} - m_j) \mu_A(\omega).
\end{aligned}
\quad (2)
$$
使用模糊方差协方差矩阵或通过公式(2)得到的模糊相关矩阵来获取特征值和特征向量。
将要分析的数据来自日本厚生劳动省开展的2012年日本国民健康与营养调查中的七个变量,如表4[5]所示。在本分析中,我们按表4所示的年龄组对样本进行分析,并将各年龄组的肥胖率设定为模糊集。此处,我们将身体质量指数(BMI)大于或等于25定义为肥胖。
| 变量 | 单位 | |
|---|---|---|
| X₁ | 每日酒精摄入量 | 每日180毫升清酒 |
| X₂ | 习惯性吸烟者百分比 | % |
| X₃ | 每日步数 | 步 |
| X₄ | 每日动物性食物摄入量 | 克/天 |
| X₅ | 每日植物性食物摄入量 | 克/天 |
| X₆ | 人均牙科支出 | 千日元 |
| X₇ | 人均国民医疗支出 | 千日元 |
表5显示了获得的特征值和比例。由于第二主成分(PC)的累积比例大于0.8,因此仅第一主成分(PC1)和第二主成分(PC2)几乎可以解释数据变异。表6显示了特征向量和因子载荷。此外,表7显示了样本得分。
| PC1 | PC2 | PC3 | PC4 | PC5 | PC6 | PC7 | |
|---|---|---|---|---|---|---|---|
| 特征值 | 4.961 | 1.406 | 0.621 | 0.012 | 0.000 | 0.000 | 0.000 |
| 比例 | 0.709 | 0.201 | 0.089 | 0.002 | 0.000 | 0.000 | 0.000 |
| 累积比例 | 0.709 | 0.910 | 0.998 | 1.000 | 1.000 | 1.000 | 1.000 |
PC:主成分
| 特征向量 | 因子载荷 | |||
|---|---|---|---|---|
| PC1 | PC2 | PC1 | PC2 | |
| X₁ | −0.444 | −0.043 | −0.988 | −0.051 |
| X₂ | −0.441 | −0.039 | −0.982 | −0.047 |
| X₃ | −0.437 | 0.186 | −0.974 | 0.220 |
| X₄ | 0.053 | 0.710 | 0.119 | 0.842 |
| X₅ | 0.137 | 0.661 | 0.305 | 0.783 |
| X₆ | 0.447 | −0.054 | 0.997 | −0.064 |
| X₇ | 0.442 | −0.135 | 0.985 | −0.160 |
首先,在第一主成分中,较大的正因子载荷为牙科护理费用和国民医疗支出,较大的负因子载荷为吸烟率、步数和饮酒量。由于它按年龄划分了活动和医疗保健成本,因此第一主成分反映了按年龄划分的生活方式。
接下来,在第二主成分中,仅有较大的正向因子载荷,这些是动物性食物摄入和植物性食物摄入。由于摄入量的增加源于饮食的偏颇,因此可以认为第二主成分代表了均衡饮食。
我们可以通过样本得分来确认这一点。在第一主成分中,二十多岁、三十岁人群和四十多岁人群的样本得分是负的大值,他们正在享受
| 年龄组 | PC1 | PC2 |
|---|---|---|
| 二十多岁 | −4.538 | −0.269 |
| 三十多岁 | −3.958 | −1.602 |
| 四十多岁 | −3.423 | −1.122 |
| 五十多岁 | −2.035 | 1.130 |
| 六十多岁 | 0.891 | 2.210 |
| 七十岁及以上 | 9.508 | −0.924 |
饮酒、吸烟和步行。另一方面,七十岁及以上人群具有正的大样本得分;他们支付了大量的医疗费用。同时,在第二主成分中,五十多岁和六十岁人群具有正的大样本得分,他们的饮食在动物性食物或植物性食物中任一方面存在偏食现象。另一方面,三十岁人群具有负的大样本得分;他们在食用肉类和蔬菜时没有偏食。
本次分析的目的是探讨生活方式因素之间的关系。由于使用了按年龄组划分的样本,未能获得预期的特征。然而,我们能够确认行为在年龄轨迹上的差异。
5 结论
我们通过回归模型验证了之前的两项分析;第一项分析是医疗支出与食物摄入之间的关系,第二项分析是五年间门诊患者数量与食物摄入之间的关系。
在这些分析中,由于未讨论变量之间的关系,本文采用模糊主成分分析对此进行了讨论。
本次分析揭示了两个显著特征:一是七十岁及以上人群明显需要更高的医疗费用;二是尽管五十岁人群和六十岁人群会根据年龄调整饮食,但七十岁及以上人群并未呈现出类似的饮食变化趋势。

45

被折叠的 条评论
为什么被折叠?



