区块链赋能供应链透明度:技术解析与应用洞察
在当今数字化时代,供应链管理面临着诸多挑战,而区块链技术的出现为解决这些问题提供了新的思路。本文将深入探讨区块链在供应链中的应用,分析其优势和潜在影响。
1. 模型拟合与主题选择
在进行供应链相关文本分析时,我们使用了开放统计软件 R 3.4.0 来拟合概率性 LDA 主题模型。模型拟合包括模型评估和选择两个方面。模型评估关注从训练数据中有效泛化信息,而模型选择则涉及确定用于推理的合适模型。
在选择 LDA 模型的主题数量时,这是一个常见问题,尤其是在事先不知道合适数量的情况下。我们使用困惑度指标来选择主题数量,困惑度在数学上等同于每个单词似然的几何平均值的倒数,并且在测试数据中单调递减。其计算公式如下:
[
Perplexity = \exp\left(-\frac{1}{\sum_{i=1}^{n} N_i} \sum_{i=1}^{n} \log(p(d_i))\right)
]
其中,(n) 表示文档的数量,(N_i) 表示文档 (d_i) 的长度,(p(d_i)) 是拟合的 LDA 模型生成该文档的概率。较低的困惑度分数表明 LDA 模型具有更好的泛化能力。
我们最初使用困惑度测量来寻找可能的主题数量,但最终的主题数量决策是在手动检查主题中的单词的意义和语义连贯性,并评估它们在各个文档中的概率后做出的。
2. 数据预处理与分析
我们对 56 个 PDF 文档的语料库进行了预处理,具体步骤如下:
1. 去除标点符号、冠词、介词等。
2. 移除文本中的所有数字。
3. 将单词转换为小写。 <
超级会员免费看
订阅专栏 解锁全文

23

被折叠的 条评论
为什么被折叠?



