【动手学深度学习】8.3 语言模型(个人向笔记)

  • 下面是语言模型的简介
    在这里插入图片描述

1. 学习语言模型

  • 使用计数来建模
    在这里插入图片描述
  • N元语法:这里的元可以理解为我们之前的时间变量。对于 N 元语法,我们可以把所有长度为 N 的子序列存下来。其中 1 元语法用的很少。这里其实就是算概率的时候我们不往前看所有的概率,只往前看 N-1 个词的概率
    在这里插入图片描述
  • 总结
    在这里插入图片描述

2. 自然语言统计

  • 语言模型与数据集:可以看到停词的出现是很多的,但是它们对于文本的理解作用较小
    在这里插入图片描述
  • 我们画出词频图看一下:可以看到在log上是差不多线性的
### Self-Organizing Map (SOM) 在天气分型中的应用及实现 #### 应用背景 Self-Organizing Map (SOM) 是一种无监督学习算法,能够将高维数据映射到低维空间,同时保留原始数据的拓扑结构[^1]。这种特性使其非常适合应用于气象学领域中的天气分型研究。通过 SOM 的降维能力,可以有效地分析复杂的多变量气象数据集,并将其转化为易于理解的形式。 在天气分型中,SOM 被用来识别不同类型的天气模式或气候状态。这些模式可能对应于特定的大气条件,例如高压系统、低压系统或其他显著的天气现象。通过对历史气象观测数据进行训练,SOM 可以自动发现并分类不同的天气类型,从而帮助研究人员更好地理解和预测气候变化趋势。 #### 实现过程概述 以下是基于 SOM 进行天气分型的主要技术细节: 1. **数据预处理** 天气分型的数据源通常是来自地面站点或多层大气模型的多变量时间序列数据。为了提高计算效率和准确性,在输入 SOM 前需对数据进行标准化处理。这一步骤涉及去除异常值以及缩放特征向量至统一范围(如 [-1, 1] 或 [0, 1]),以确保各维度的重要性均衡[^2]。 2. **构建 SOM 模型** 使用二维网格作为输出层来表示简化后的天气类型分布情况。该网格上的每一个节点代表一个原型矢量,即一组经过优化调整后最能反映某一类天气特性的参数组合。随着迭代次数增加,相邻节点间的距离逐渐减小直至收敛稳定为止。 3. **训练阶段** 训练过程中采用竞争性学习机制更新权重矩阵 Wij 。具体而言就是对于每条样本 xi ,找到与其最近邻接点 j* 并依据一定规则修改关联权值 wij * 向目标靠近;与此同时还会影响周围其他若干个临近单元也做相应程度的变化以维持整体布局连贯性[^3]。 4. **结果解释与验证** 完成上述步骤之后即可得到一张清晰展示各类典型天气状况的地图图像。进一步可以通过统计方法评估所得分区是否合理有效——比如考察内部一致性指标或者外部参照标准匹配度等等方式来进行质量检验。 #### Python 示例代码 下面提供了一个简单的Python脚本演示如何利用 `minisom`库创建基本版SOM并对随机生成的一些假想气象要素执行初步探索操作: ```python from minisom import MiniSom import numpy as np # 设置SOM大小和其他超参 som_shape = (10, 10) input_dim = 5 # 假设有五个气象因子 sigma = 1.0 # 初始影响半径 learning_rate = 0.5 # 初始化SOM对象 som = MiniSom(som_shape[0], som_shape[1], input_dim, sigma=sigma, learning_rate=learning_rate) # 创建一些虚构的气象数据供测试用途 np.random.seed(0) data = np.random.rand(100, input_dim) # 开始训练前先初始化权重 som.random_weights_init(data) # 执行批量训练流程 epochs = 100 for epoch in range(epochs): rand_index = np.random.randint(len(data)) sample = data[rand_index] som.update(sample, som.winner(sample), epochs - epoch, epochs) # 显示最终形成的地图格局 weights = som.get_weights() print(weights.shape) # 输出应为 (10, 10, 5),意味着有十个乘十个小格子各自携带五项属性数值 ``` #### 注意事项 尽管 SOM 提供了一种强大的工具用于揭示隐藏在复杂气象数据库背后的潜在规律,但在实际部署时仍需要注意几个方面的问题:首先是关于最佳网络尺寸的选择问题并没有通用解答方案,往往依赖经验判断结合交叉验证手段确定合适规模;其次是当面对非常庞大稀疏矩阵形式呈现出来的资料集合时候,则可能会面临内存占用过高甚至溢出的风险因此需要特别小心规划资源分配策略。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值