葡萄酒的评价
摘 要
本文针对葡萄酒的评价问题,建立了基于
KW
检验和信度分析的评价模型,
解决了对评价结果显著性差异的分析和可信度的计算问题;建立了基于聚类分析
的评价模型,解决了对酿酒葡萄进行分级的问题;建立了基于主成份分析法的评
价模型,解决了各类理化指标之间的联系问题;建立了基于多元回归分析的评价
模型,解决了各类理化指标与葡萄酒质量间的关系构建问题,并论证能否用各类
理化指标来评价葡萄酒的质量的问题。
针对问题一,建立了基于
KW
检验和信度分析的评价模型,解决了对评价结
果显著性差异的分析和可信度的计算问题。首先,计算各组样品的平均秩,初步
判断多个独立总体的分布有无显著性差异。其次,基于
KW
检验计算其显著性水
平
(
取平均值
)
,所得结果如下:
0.4022
、
0.3415
、
0.2824
、
0.2263
,有显著性差异。
再次,基于克伦巴赫系数对数据进行信度分析,所得信度平均值依次为:
0.8815
,
0.836
,第一组更可信。接着,舍去部分数据进行灵敏度分析,所得系数平均值
最大变化量为
0.021
,灵敏度较低。最后,采用双总体
T
检验进行检验,所得结
果如下:
0.3957
、
0.3326
、
0.2903
、
0.2132
,与上述一致,证明了模型的合理性。
针对问题二,建立了基于
Q
型聚类分析的评价模型,解决了对酿酒葡萄进行
分级的问题。首先,将质量分为香气质量和口感质量,基于相关系数得出两者与
酿酒葡萄的理化性质指标之间的相关性,筛选出高相关性的指标。其次,根据信
度的权重采用熵权法引入打分制度,得出葡萄酒的综合评价得分。再次,基于高
相关性的指标和综合评价得分,采用聚类分析法对葡萄进行分类,所得结果如下
(
以红葡萄样品为例
)
:
3
、
9
、
21
、
1
、
8
为一级,
2
、
14
、
23
、
19
、
5
、
13
、
6
、
24
、
4
、
22
、
10
、
16
、
11
为二级,其余为三级。接着,于原有的综合评价得分加一进
行灵敏度分析,所得结果变化如下:
2
、
5
变为三级,
7
变为二级,灵敏度较低。
最后,对照信度最高的评价得分,所得结果与之一致,证明了模型的合理性。
针对问题三,建立了基于主成份分析法的评价模型,解决了各类理化指标之
间的联系问题。首先,根据葡萄酒的理化指标的相关系数,选取单宁等相关性较
高的参量作为研究对象。其次,基于最小二乘法拟合出各类理化指标之间的函数
关系式。再次,选取主成份贡献率之和大于
80%
的主要因素进行灵敏度分析,所
得函数关系式参数变化最大为
0.13
,灵敏度较高。最后,采用任意两点插值进行
检验,得到相应的函数关系式,与上述一致,证明了模型的合理性。
针对问题四,建立了基于多元回归分析的评价模型,解决了各类理化指标与
葡萄酒质量关系的构建问题,并论证能否用各类理化指标来评价葡萄酒的质量。
首先,基于主成份分析法对酿酒葡萄的理化指标进行降维,并与葡萄酒的主成份
合并,将所得主成份与所评结果进行多元回归分析,得到关于
11
个变量的函数
表达式。其次,基于聚类分析法将各类芳香物质分为
3
类,以其中心点作为各类
物质的代表,将所得代表与第一组评酒员评价结果进行多元回归分析,得到相应
的函数关系式。再次,以两次多元回归分析的残差作为评价葡萄酒质量的标准,
所得结果为:
0.770
、
0.643
,残差相近,不能完全用各类理化指标评价葡萄酒的
质量。接着,于变量上增加一进行灵敏度分析,表达式系数改变量最大为
0.23
,
灵敏度较低。最后,基于最小二乘法与评价结果进行拟合,表达式系数改变量最
大为
0.31
,证明了模型的合理性。
关键词
:
KW
检验、克伦巴赫系数、熵权法、
Q
型聚类分析、主成份分析
1
一、问题重述
1.1 问题背景
随着全球经济的快速增长和人们收入水平的提高,消费者对高品质葡萄酒的
需求不断增加。葡萄酒市场竞争也异常激烈和无序,但由于相应规范的制定工作
的限制,我国关于葡萄酒质量等级分划的标准还未完善,国家迫切需要制定统一
的质量等级制度。故而葡萄酒的评价显得尤为重要,品评中的每一个字眼都会对
一款葡萄酒的名气产生至关重要的意义,因此,酒评无论褒贬,都需要清晰有据,
正确的评价才会找到葡萄酒真正的价值。
1.2 问题重述
问题
1
:分析附件
1
中两组评酒员的评价结果有无显著性差异,哪一组结果
更可信?
问题
2
:根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
问题
3
:分析酿酒葡萄与葡萄酒的理化指标之间的联系。
问题
4
:分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能
否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
二、问题分析
葡萄酒的评价共包含四个问题,其中问题一可细分为两小问,即分析评酒员
的评价结果有无显著性差异和结果可信度的问题。问题二是根据酿酒葡萄的理化
指标和葡萄酒的质量这两个因素对这些酿酒葡萄进行分级。问题三是分析酿酒葡
萄与葡萄酒的理化指标之间的联系。问题四可细分为两小问,即分析酿酒葡萄和
葡萄酒的理化指标对葡萄酒质量的影响,并讨论能否用葡萄和葡萄酒的理化指标
来评价葡萄酒的质量。问题整体思路较为清晰,层层递进。问题一是针对评酒员
评价结果的显著性分析和可信度计算的问题。问题二建立在问题一的可信度计算
结果的基础上,得出葡萄酒的综合评价得分,系统规定葡萄酒的质量得分参数,
规范葡萄酒质量的评价指标。是基于葡萄酒的综合评价得分和理化指标的分级问
题。问题三是对酿酒葡萄和葡萄酒的理化指标之间的函数构建问题,是对一、二
两问的延伸。问题四则是建立在前三问的基础上,分析酿酒葡萄和葡萄酒的理化
指标对葡萄酒质量的影响,同时基于酿酒葡萄和葡萄酒的理化指标讨论是否可以
忽略葡萄和葡萄酒的芳香物质这一指标。
2.1 问题一的分析
问题一是基于附件
1
中两组评酒员的评价结果,分析是否有显著性差异并确
定结果可信度,因此该问题属于评价类建模问题。故针对问题一,建立了基于
KW
检验和信度分析的评价模型,解决了评价结果显著性差异的分析和可信度的计算
问题。首先,计算各组样品的平均秩
[1]
,初步判断多个独立总体的分布有无显著
性差异。如果各组样本的平均秩大致相等,则可以认为多个独立总体的分布没有
显著差异。如果各样本的平均秩相差很大,不能认为多个独立总体的分布无显著
差异。其次,常见的显著性检验的方法包括
KW
检验
[2]
、
T
检验和
F
检验,其中
KW
检验基于对样本排序并计算秩次,然后比较两组样本的秩和,从而得出结论,
适用于两组独立样本且样本数量足够大的情况下使用。故该题基于
KW
秩和比检
验计算其显著性水平。再次,常见的信度分析包括折半信度法、库得
-
理查森信
2
3
度分析和克伦巴赫信度系数法,其中克伦巴赫信度系数法
[3]
可以快速、简便地评
估量表或问卷的内部一致性,同时具有较高的可靠性和有效性。故基于克伦巴赫
系数对数据进行信度分析。接着,舍去部分数据进行灵敏度分析,检验灵敏度的
大小。最后,采用双总体
T
检验
[4]
进行模型检验,证明模型的合理性。
2.2 问题二的分析
问题二是基于附件
2
酿酒葡萄的理化指标和评价结果,分析酿酒葡萄的理化
指标和葡萄酒的质量对这些酿酒葡萄的影响,并对酿酒葡萄进行分级,因此该问
题属于评价类建模问题。故针对问题二,建立了基于
Q
型聚类分析的评价模型,
解决了对酿酒葡萄进行分级的问题。首先,将质量分类为香气质量和口感质量,
基于皮尔森相关系数
[5]
得出两者与酿酒葡萄的理化性质指标之间的相关性,筛选
出高相关性的指标。其次,基于问题一的信度分析,可依据其权重进行综合评价
打分,常见的权重分析包括环比权重法,熵权法等。其中环比权重法适用于具有
周期性变化的问题,但需要注意的是,环比权重法的结果容易受到数据波动和异
常值的影响,熵权法更适用于多指标决策问题,尤其适用于具有不确定性和模糊
性的系统,故该题采用熵权法进行计算。根据信度的权重采用熵权法
[6]
引入打分
制度,得出葡萄酒的综合评价得分。再次,基于高相关性的指标和综合评价得分,
采用聚类分析法
[7]
对葡萄酒进行分类,同时经过权重计算将
55
分以上的葡萄分
为一级,
3
5-55
分的分为二级
35
分以下的分为三级,由此得出葡萄酒的具体分类。
接着,于原有的综合评价得分加一进行灵敏度分析,检验其灵敏度大小。最后,
对照信度最高的第一组评价得分,证明模型的合理性。
2.3 问题三的分析
问题三是基于附件
2
酿酒葡萄与葡萄酒的理化指标,分析酿酒葡萄与葡萄酒
的理化指标之间的联系,因此该问题属于评价类建模问题。故针对问题三,建立
了基于主成份分析法的评价模型,解决了酿酒葡萄与葡萄酒的理化指标之间的联
系问题。首先,对每个变量进行标准化变换,根据葡萄酒的理化指标的相关系数,
选取单宁、葡萄总黄酮、总酚、氨基酸总量和黄酮醇这五个相关性最高的参量作
为研究对象。其次,对以上五个类型进行主成份分析
[8]
并计算贡献率,每个综合
指标所反映各个样本的信息量等于对应特征向量
(
综合指标的系数
)
的特征值,选
取使主成份贡献率之和大于
85%
的主要因素进行降维。再次,基于最小二乘法拟
合出酿酒葡萄与葡萄酒的理化指标之间的函数关系式,最小二乘法是在知道一组
不准确实验数据中寻找自变量
x
和因变量
y
之间的函数关系
y
F
(
x
)
,用拟合曲
线
S
(
x
)
去逼近实验数据,来描述自变量
x
和因变量
y
之间的函数关系,适用于该
题关系式的确定。接着,选取使主成份贡献率之和大于
80%
的主要因素进行灵敏
度分析,比较所得函数关系式参数变化量,检验灵敏度大小。最后,采用插值法
[10]
进行检验,证明模型的合理性。
2.4 问题四的分析
问题四是基于附件
2
酿酒葡萄与葡萄酒的理化指标和附件
3
葡萄和葡萄酒的
芳香物质,分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否
用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。故针对问题四,建立了基于多
元回归分析
[11]
的评价模型,解决了各类理化指标与葡萄酒质量关系的构建问题,
并论证能否用各类理化指标来评价葡萄酒的质量。首先,基于主成份分析法对酿
酒葡萄的理化指标进行降维,得到酿酒葡萄的主体成份。将酿酒葡萄和葡萄酒的
4
主成份合并,多元回归分析可以解释多个变量之间的复杂关系,通过使用多个自
变量,可以控制其他因素的影响,从而更准确地预测因变量的值,故将所得主成
份与第一组评酒员评出的结果进行多元回归分析,由此得到酿酒葡萄和葡萄酒的
理化指标与葡萄酒质量的函数关系式。其次,基于聚类分析法将各类芳香物质分
为
3
类,以其中心点作为各类物质的代表,将所得代表与第一组评酒员评价结果
进行多元回归分析,进一步得到葡萄和葡萄酒的芳香物质与葡萄酒质量的函数关
系式。再次,以两次多元回归分析的残差
[12]
作为评价葡萄酒的质量的标准。接着,
于变量上增加一进行灵敏度分析,检验灵敏度大小。最后,基于最小二乘法
[13]
与第一组评酒员评价结果进行拟合,证明模型的合理性。
三、基本假设
(1)
题目附件中所提供的各项理化指标数据均真实可靠;
(2)
酿酒葡萄和葡萄酒的理化指标和芳香物质在一定时间内不发生改变;
(3)
酿酒工艺和贮存条件等对葡萄酒质量及理化指标无影响;
(4)
测量数据大致呈正态分布。
四、符号说明
R
i
第
i
组秩和
C
校正系数
n
i
第
i
组样本个数
a
克伦巴赫信度系数
期望值
S
d
标准偏差
Z
判断矩阵
z
j
第
j
组的主成份向量
五、模型建立与求解
5.1 问题一的模型建立与求解
针对问题一,建立了基于
KW
检验和信度分析的评价模型,解决了评价结果
是否具有显著性差异和可信度的问题。首先,计算各组样品的平均秩,初步判断
多个独立总体的分布有无显著性差异。其次,基于
KW
检验计算其显著性水平
(
平
均值
)
,所得结果如下:
0.4022
、
0.3415
、
0.2824
、
0.2263
,有显著性差异。再次,
基于克伦巴赫系数对数据进行信度分析,所得信度平均值依次为:
0.8815
,
0.836
,
第一组更可信。接着,舍去部分数据进行灵敏度分析,所得系数平均值依次为:
0.8721
,
0.8203
,灵敏度较低。最后,采用双总体
T
检验进行模型检验,所得结
5
果如下:
0.3957
、
0.3326
、
0.2903
、
0.2132
,证明了模型的合理性。
5.1.1 模型建立
首先,计算各组样品的平均秩,初步判断多个独立总体的分布有无显著性差
异。如果各组样本的平均秩大致相等,则可以认为多个独立总体的分布没有显著
差异。其次,基于
KW
检验计算其显著性水平
(
取平均值
)
,其理论基础如下:
KW
检验是一种秩和检验,根据所有数据从小到大排序,算出每个数据的秩。
其中
R
i
为每组的秩和,
n
i
为每组的样本个数。当每组样本中的观察数目有
5
个或
5
个以上,则样本统计量
KW
c
的分布与自由度为
k
1
的卡方分布非常接近。因此,
KW
统计量可利用卡方分布进行检验。
k
i i
i
i
i
k
i
i
n
n
R
n n
n
n
R
n n
KW
n
1
2
2
1
3( 1).
( 1)
12
)
2
1
(
( 1)
12
全体样本的秩方差
组间平方和
如果样本中存在结值
(
数据相同秩值的个数
)
,则校正系数
C
为:
n n
C
n
i
i i
3
1
(
3
)
1
其中
i
为第
i
个结值的个数。调整后的
KW
c
统计量如下:
KW
C
K C W
再次,基于克伦巴赫系数对数据进行信度分析,其理论基础如下:
克伦巴赫信度系数是一套测验可靠性的方法,依一定公式估量测验的内部一
致性作为信度的指标。它克服部分折半法的缺点,是社会研究最常使用的信度指
标,它是测量一组同义或平行测“总和”的信度及其公式如下:
)
( 1)(
)]
[1 (
2
2
x
i
a
K K
S S
其中,
K
为量表中题项的总数,
S
2
i
为第
i
得分的方差,
S
2
i
为全部题项总得分的
方差。从公式中可以看出,
a
系数评价的是各题项得分间的一致性。
统计上用克伦巴赫信度系数指标来检验同一向度的一组题目是否测量同一
特质,取值范围在
0-1
之间。
a
值介于
0-1
,
1
表示这组题目完全符合“尺”的特
质,而
0
表示完全不符合。
接着,舍去部分数据进行灵敏度分析,检验模型灵敏度大小。最后,采用双
总体
T
检验进行模型检验,证明模型的合理性。
5.1.2 模型求解
计算各组样品的平均秩,初步判断多个独立总体的分布有无显著性差异。基
于
KW
检验计算其显著性水平
(
平均值
)
,所得结果如下表所示:
表
1
显著性水平结果表
白葡萄酒的
KW
显著性
红葡萄酒的
KW
显著性
第一组为标度 第二组为标度 第一组为标度 第二组为标度
6
澄清度
0.316
0.304
0.454
0.363
色调
0.22
0.338
0.242
0.199
纯正度
0.56
0.467
0.173
0.123
浓度
0.617
0.36
0.287
0.492
质量
0.228
0.179
0.156
0.086
纯正度
0.075
0.058
0.035
0.114
浓度
0.265
0.421
0.61
0.225
持久性
0.932
0.795
0.424
0.198
质量
0.109
0.136
0.285
0.292
评价
0.7
0.357
0.158
0.171
平均值
0.4022
0.3415
0.2824
0.2263
通过
KW
检验,其显著性水平
(
平均值
)
所得结果如下:
0.4022
、
0
.3415
、
0
.2824
、
0.2263
,同时显著性水平的平均值皆大于
0.05
,有显著性差异。
基于克伦巴赫系数对数据进行信度分析,所得结果如下:
表
2
信度分析结果
第一组白葡萄
酒
第一组红葡
萄酒
第二组白葡萄
酒
第二组红葡
萄酒
可信度分析
0.843
0.92
0.852
0.82
可信度平均值
0.8815
0.836
通过计算可知,所得信度平均值依次为:
0.8815
,
0.836
,第一组的可信度比
较高。接着,舍去部分数据进行灵敏度分析,所得系数平均值依次为:
0.8721
,
0.8203
,灵敏度较低。
5.1.3 问题结论
通过计算各组样品的平均秩,初步判断多个独立总体的分布有无显著性差异。
其次,基于
KW
检验计算其显著性水平
(
平均值
)
,所得结果如下:
0.4022
、
0.3415
、
0.2824
、
0.2263
,有显著性差异。再次,基于克伦巴赫系数对数据进行信度分析,
所得信度平均值依次为:
0.8815
,
0.836
,第一组更可信。最后,舍去部分数据进
行灵敏度分析,所得系数平均值依次为:
0.8721
,
0.8203
,灵敏度较低。
5.1.4 检验分析
采用双总体
T
检验进行模型检验,其理论基础如下:
双总体
T
检验是检验两个样本平均数与其各自所代表的总体的差异是否显
著。双总体
T
检验又分为两种情况,一是独立样本
T
检验
(
各实验处理组之间毫
无相关存在,即为独立样本
)
,该检验用于检验两组非相关样本被试所获得的数
据的差异性;一是配对样本
T
检验,用于检验匹配而成的两组被试获得的数据
或同组被试在不同条件下所获得的数据的差异性,这两种情况组成的样本即为相
关样本。
(1)
独立样本
T
检验统计量为
:
)
1
( 1
2
( 1) ( 1)
2
1
1 2
1 1 2 2 2 2
1 2
n
n
n n
n S n S
X X
T
S
1 2
和
S
2 2
为两样本方差;
n
1
和
n
2
为两样本容量。
(2)
配对样本检验
7
配对样本
T
检验可视为单样本
T
检验的扩展,不过检验的对象由一群来自常
态分配独立样本更改为二群配对样本之观测值之差。若二配对样本
x
1
i
与
x
2
i
之差
为
d
i
x
1
i
x
2
i
独立,且来自常态分配,则
d
i
之母体期望值
是否为
0
可利用以
下统计量:
S n
T d
d
0
其中
n
d
d
n
i
i
1
为配对样本差值的平均数,
1
( )
1
2
n
d d
s
n
i
i
d
为配对样本差值之标
准偏差,
n
为配对样本数。该统计量
T
在零假说:
0
为真的条件下服从自由
度为
n
1
的
T
分布。
所得结果如下:
0.3957
、
0.3326
、
0.2903
、
0.2132
,与上述算法所得答案一致,
证明了模型的合理性。
5.1.5 小结
针对问题一,建立了基于
KW
检验和信度分析的评价模型,解决了评价结果
是否具有显著性差异和可信度的问题。首先,计算各组样品的平均秩,初步判断
多个独立总体的分布有无显著性差异。其次,基于
KW
检验计算其显著性水平
(
平
均值
)
,所得结果如下:
0.4022
、
0.3415
、
0.2824
、
0.2263
,有显著性差异。再次,
基于克伦巴赫系数对数据进行信度分析,所得信度平均值依次为:
0.8815
,
0.836
,
第一组更可信。接着,舍去部分数据进行灵敏度分析,所得系数平均值依次为:
0.8721
,
0.8203
,灵敏度较低。最后,采用双总体
T
检验进行模型检验,所得结
果如下:
0.3957
、
0.3326
、
0.2903
、
0.2132
,证明了模型的合理性。
5.2 问题二的模型建立与求解
针对问题二,建立了基于