27、利用自组织映射（SOM）研究棉花种植与纺纱

uran

于 2025-11-12 16:58:15 发布

阅读量23

点赞数

CC 4.0 BY-SA版权

分类专栏：自组织映射：智能数据解析文章标签：自组织映射 SOM 棉花种植

本文链接：https://blog.youkuaiyun.com/uran/article/details/154893707

自组织映射：智能数据解析专栏收录该内容

30 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

利用自组织映射（SOM）研究棉花种植与纺纱

1. 引言

棉花一直是最重要的纺织纤维之一。随着全球对棉花需求的持续增长，棉花产量也屡创新高，价格随之上涨。在肯尼亚，纺织业曾在20世纪70 - 80年代迅速发展，成为仅次于食品加工的第二大制造业。然而，自1982年贸易自由化政策实施以来，肯尼亚棉花种植和加工行业面临诸多问题，如基础设施恶化、能源成本上升和腐败现象等，导致该行业技术落后、产品竞争力下降。如今，肯尼亚已从纺织品净出口国变为净进口国。

为了提高肯尼亚棉花种植和加工行业的竞争力，该国政府采取了一系列措施，如取消轧棉和纺织机械相关税收、向农民提供免费棉种以及起草管理纺织部门的法案。但全球棉花市场的变化和多纤维安排的结束，给肯尼亚棉花种植行业带来了新的挑战。

棉花质量也是影响肯尼亚棉花产业竞争力的关键因素。棉花的品质受生长、轧棉和销售环境的影响，其纤维长度、长度均匀度、纺纱一致性指数等特性可通过多种仪器测量。高容量仪器（HVI）系统的出现，使棉花品质测量更加高效准确。

2. 数据处理算法

2.1 科霍宁自组织映射（Kohonen Self Organizing Maps，SOM）

SOM是一种无监督的竞争性学习聚类网络，同一时间只有一个神经元（或一组中的一个神经元）处于激活状态。它通过竞争和合作两种基本交互方式学习识别相似输入向量组，使物理位置相近的神经元对相似输入向量做出响应。SOM学习算法的步骤如下：
1. 每个输入向量与权重矩阵的每个权重向量进行比较，选择距离最小的神经元作为获胜神经元（最佳匹配单元，BMU）。
2. 获胜神经元拓扑邻域内的所有神经元，根据邻域函数φ(j)更新其权重：
[
\varphi(j) = \exp\left(-\frac{\rho(j)^2}{2\sigma^2}\right)
]
其中，(\rho(j) = ||V(j,:) - V(k,:)||) 是第j个和第k个神经元在l - D（l = 1,2或3）特征空间中的距离，(\sigma^2) 是高斯分布的方差（或扩展）。

SOM地图的质量可通过数据表示准确性和数据集拓扑表示准确性两个因素来检查。数据表示准确性可通过每个数据向量与其BMU之间的平均距离来衡量，数据集拓扑表示准确性可表示为地形误差，即第一个和第二个BMU不是相邻单元的数据向量的百分比。

2.2 概率神经网络（Probabilistic Neural Network，PNN）

PNN是一种分类人工神经网络，基于贝叶斯决策理论，为模式分类问题提供通用解决方案。与其他多层前馈神经网络相比，它无需迭代训练，训练速度更快，优化所需参数更少。PNN的架构包括输入层、径向基层和竞争层，其设计简单，通常只需选择第一层的扩展最佳值。PNN在有足够训练数据的情况下，可保证收敛到贝叶斯分类器。

2.3 k - 均值聚类技术（用于棉包分类）

k - 均值是一种非层次聚类方法，通过最小化数据成员与相应聚类中心之间的距离平方和，将未标记的特征向量组织成k个聚类。其算法步骤如下：
1. 在被聚类对象所代表的空间中放置k个点。
2. 将每个对象分配到中心距离最近的组。
3. 当所有对象都被分配后，重新计算k个中心的位置。
4. 重复步骤2和3，直到中心不再移动。

数据分区的质量可通过戴维斯 - 布尔丁（DB）指数和轮廓均值等聚类有效性方法进行分析。DB指数是簇内散布总和与簇间分离的比率函数，可用于确定最佳聚类数。轮廓均值方法使用宽度图，通过计算每个特征向量的轮廓宽度Si来评估聚类效果：
[
S_i = \frac{\max(a_i, b_i) - a_i}{\max(a_i, b_i)}
]
其中，(a_i) 是第i个特征向量到同一簇中所有其他特征向量的平均距离，(b_i) 是第i个特征向量到另一个簇中所有特征向量的最小平均距离。Si接近1表示向量分类正确，接近0表示难以确定所属簇，为负表示分配到了错误的簇。

2.4 统计技术

在统计分析中，可使用描述性统计方法来组织和总结数据，如均值、标准差和变异系数（CV）等。对于高维数据，如HVI数据，可使用箱线图（box - and – whisker diagram）和主成分分析技术来研究其特征。主成分分析通过将一组变量替换为一个新变量，简化数据问题，生成的主成分相互正交，无冗余信息。

3. SOM在棉花种植和加工行业的应用

3.1 使用SOM研究棉花种植

数据和样本收集 ：从肯尼亚各区农业官员（DAO）、农民、农业部（MOA）收集棉花种植数据，并从轧棉厂收集棉绒样本，使用HVI系统进行分析。
结果与讨论
- 棉花生产趋势 ：肯尼亚棉花产量在1966 - 1978年呈上升趋势，随后开始下降。20世纪80年代初的产量下降归因于政府部门的管理不善，80年代中期的短暂回升后，产量再次下降与经济自由化和世界棉花价格下跌有关。
- 成本分析 ：通过SOM技术分析棉花种植成本，确定了六个聚类组。分析发现，棉花产量与农药和除草成本呈正相关。由于肯尼亚棉花种植区贫困程度较高，农民使用的农药和化肥量不足，且除草不及时，影响了棉花产量。

描述	5年平均值（Kes/ha）	2004/2005年（Kes/ha）
犁地	3129	3600
耙地	1496	1268
种子	232	253
肥料	969	630
种植	1223	554
除草	3299	1720
农药	2659	1776
收获	3508	1507
运输	875	1077
其他	456	507
总成本	17847	12891
产量（Kg/ha）	717	571
盈亏平衡成本	25	23

3.2 使用SOM技术对肯尼亚棉绒进行分类

样本收集和数据分析 ：收集2003/2004和2004/2005年肯尼亚三个棉花种植区的棉绒样本，使用Uster HVI光谱仪测量13个棉花特性。利用SOM工具可视化高维HVI数据，确定聚类性质和k值，再使用k - 均值聚类技术进行分区，最后用PNN对棉绒聚类进行分类。
结果与讨论
- 数据可视化 ：SOM将192x13的HVI数据缩减为12x6网格，最终量化误差为1.647，地形误差为0.010，表明棉绒样本可分为四个聚类。
- 使用k - 均值聚类技术对棉绒进行聚类 ：聚类结果显示，较长的肯尼亚棉花往往具有较高的马克隆值、成熟度、纺纱一致性指数、强度、均匀度、伸长率和反射率，但黄度、短纤维指数和杂质测量值较低。
- 使用PNN对棉绒聚类进行分类 ：PNN算法在扩展值为6和7时达到最佳性能（R值 = 1.00），能够准确分类HVI数据的聚类。

HVI因素	聚类1	聚类2	聚类3	聚类4
马克隆值	4.03	3.95	3.31	3.06
长度	30.38	29.96	29.27	29.23
成熟度	0.88	0.86	0.82	0.81
SCI	164	157	135	143
强度	32.57	30.25	26.85	27.78
均匀度	85	84	82	83
短纤维指数	7.73	8.13	9.56	9.73
伸长率	6.18	6.16	5.88	5.86
反射率（Rd）	76.45	79.53	70.68	66.43
黄度（+b）	10.95	11.25	13.64	14.79
杂质百分比	27.54	11.93	33.27	69.96
杂质面积	0.40	0.15	0.48	0.91
杂质等级	4	2	4	6
案例数量	26	90	49	27

3.3 使用SOM对棉包进行分类

数据收集和分析 ：从上海工业产品和材料检验中心（SICIPM）获取2005年10月至2006年7月期间拟进口到中国的2421个棉包的HVI数据。首先使用SOM数据可视化技术了解HVI数据的聚类性质，确定k值；然后使用k - 均值技术对HVI数据进行分区；最后通过轮廓均值、变异系数和主成分分析等方法检查数据组的紧凑性。
结果与讨论
- 数据可视化 ：SOM技术将2421x13的高维数据缩减为18x13，量化误差为1.879，地形误差为0.083，可用于棉包分类研究。k - 均值聚类技术确定最佳聚类数为19。
- 聚类结果分析 ：第2、7和17组的某些属性变异系数高于主组，被认为分区不当；其他16组分区良好，紧凑且彼此不同。重新组合的子组（RSG）可进一步细分为五个子集，但这些子集仍不够紧凑，可视为离群值集合。

graph LR
    A[获取HVI数据] --> B[SOM数据可视化]
    B --> C[确定k值]
    C --> D[k - 均值技术分区]
    D --> E[检查数据组紧凑性]
    E --> F{是否通过检查}
    F -- 是 --> G[完成分类]
    F -- 否 --> H[进一步分析]

4. 研究棉花纱线质量

样本收集和数据分析 ：从肯尼亚纺织厂收集棉绒和环锭纺纱线样本，使用Uster Spectra 1000 HVI系统测试棉绒样本，使用各种纱线测试设备测试纱线质量特性，并使用Somtoolbox进行分析。
结果与讨论
- 根据乌斯特标准评估纱线质量 ：纱线均匀度（CVm）和拉伸性能（强度和伸长率）的变异系数较低，而瑕疵（细节、粗节和棉结）的变异系数较高，表明纱线不规则性高，影响染料/整理剂吸收和纱线强度。
- 纱线支数对纱线质量的影响 ：随着纱线支数（Tex）的增加，拉伸性能增强，纱线均匀度和瑕疵减少。
- 使用SOM分析纱线质量 ：SOM将150x7的纱线质量数据缩减为11x6，其地图显示某些工厂存在棉结控制问题。

综上所述，肯尼亚棉花种植和加工行业面临诸多挑战，但通过使用SOM等技术对高维数据进行分析，可发现棉花种植成本与产量的关系、对棉绒和棉包进行分类以及评估纱线质量。建议肯尼亚棉农采用机械化耕作方法，加强对化肥和农药使用的研究，并调查肯尼亚棉纱高瑕疵率的原因，以提高棉花产业的竞争力。

利用自组织映射（SOM）研究棉花种植与纺纱

5. 结论与建议

5.1 肯尼亚棉花种植趋势

基于收集的样本和数据，可得出以下结论：
- 肯尼亚籽棉产量在过去二十年呈下降趋势。
- 肯尼亚农民在土地准备上花费较多，而在化肥和农药等农业投入上的花费低于预期，影响了棉花产量。
- 肯尼亚棉花种植的盈亏平衡成本为每公斤0.31美元，但农民每公斤籽棉仅获得0.29美元。
- 棉花产量与农药和除草成本呈正相关。

为提高肯尼亚棉花种植的效益，建议如下：
- 肯尼亚棉农应采用机械化耕作方法，以降低土地准备成本。
- 开展研究，确定化肥和其他化学品在棉花种植中的合理使用量。
- 利用SOM技术分析影响棉花产量的高维数据。

5.2 肯尼亚棉绒分类

设计了一种棉花聚类算法，包括SOM数据可视化、k - 均值聚类技术和PNN棉绒聚类分类。SOM成功将HVI数据从192x13缩减为12x6，表明肯尼亚棉绒可分为四个聚类。k - 均值聚类显示，肯尼亚棉绒通常具有较高的马克隆值、成熟度、纺纱一致性指数、强度、均匀度、伸长率和反射率，但黄度、短纤维指数和杂质测量值较低。PNN算法成功将棉绒分为四个聚类（R值 = 1）。

5.3 利用SOM技术对棉包进行分类

提出了一种棉包分类模型，用于对2421个棉包进行分类。该模型将2421x13的高维HVI数据缩减为18x13网格，量化误差为1.879，地形误差为0.083，最初确定数据中有19个组。其中三个组（共144个数据）未通过紧凑性测试，最终分类结果包含16组共2277个棉包和五组共144个离群值棉包。

5.4 使用SOM技术研究棉花纱线质量

对肯尼亚生产的环锭纺纱线进行了研究。结果表明，纱线均匀度和拉伸性能的变异系数较低，而瑕疵的变异系数较高，说明肯尼亚生产的纱线不规则性较高。纱线支数增加时，拉伸性能增强，纱线均匀度和瑕疵减少。使用科霍宁自组织映射（SOM）研究纱线质量特性得到了相同的结果，SOM地图还揭示了其中一家工厂存在棉结控制问题。

基于以上研究结果，建议对肯尼亚棉纱高瑕疵率的原因进行调查，以提高环锭纺纱线的质量。

研究内容	结论	建议
肯尼亚棉花种植	产量下降，成本与产量关系需优化	采用机械化耕作，研究合理施肥用药，用SOM分析数据
肯尼亚棉绒分类	可分为四个聚类，各聚类有特性	-
棉包分类	大部分分组良好，有部分离群值	-
棉花纱线质量	不规则性高，支数影响质量	调查高瑕疵率原因

graph LR
    A[肯尼亚棉花产业研究] --> B[棉花种植研究]
    A --> C[棉绒分类研究]
    A --> D[棉包分类研究]
    A --> E[纱线质量研究]
    B --> F[得出种植结论]
    C --> G[得出棉绒分类结论]
    D --> H[得出棉包分类结论]
    E --> I[得出纱线质量结论]
    F --> J[提出种植建议]
    I --> K[提出纱线质量建议]

总之，SOM技术在棉花种植、棉绒和棉包分类以及纱线质量分析中具有重要应用价值。通过这些分析，可以更好地了解肯尼亚棉花产业的现状和问题，为提高产业竞争力提供有针对性的建议。在未来的研究和实践中，可以进一步深入探索SOM技术的应用，结合其他先进技术和方法，不断优化棉花产业的各个环节，推动肯尼亚棉花产业的可持续发展。同时，相关企业和政府部门应重视研究结果，积极采取措施，解决产业中存在的问题，促进棉花产业的升级和转型。