数学建模学习-张量分解(Tensor Decomposition)教程(45)

FFMXjy

于 2025-01-25 10:07:19 发布

阅读量756

点赞数 25

分类专栏：数学建模学习-传统算法、机器学习、深度学习系列课程文章标签：数学建模学习

本文链接：https://blog.youkuaiyun.com/FFMXjy/article/details/145352486

版权

数学建模学习-传统算法、机器学习、深度学习系列课程专栏收录该内容

49 篇文章

订阅专栏

数学建模学习-张量分解(Tensor Decomposition)教程(45)

写在最前

注意本文的相关代码及例子为同学们提供参考，借鉴相关结构，在这里举一些通俗易懂的例子，方便同学们根据实际情况修改代码，很多同学私信反映能否添加一些可视化，这里每篇教程都尽可能增加一些可视化方便同学理解，但具体使用时，同学们要根据实际情况选择是否在论文中添加可视化图片。

系列教程计划持续更新，同学们可以免费订阅专栏，内容充足后专栏可能付费，提前订阅的同学可以免费阅读，同时相关代码获取可以关注博主评论或私信。

一、张量分解简介

张量分解（Tensor Decomposition）是多维数据分析中的一个重要工具，它是矩阵分解在高维数据上的推广。在现代数据分析中，我们经常遇到多维数据，例如：

用户-商品-时间的评分数据
图像-时间序列数据
脑电图多通道时序数据
社交网络多维关系数据

张量分解能够帮助我们：

发现数据中的潜在模式
降维和特征提取
缺失数据补全
异常检测
多维数据压缩

二、算法特点

1. 主要优势

能够保持数据的多维结构
可以发现复杂的交互模式
具有良好的可解释性
可以处理稀疏数据和缺失值

2. 主要挑战

计算复杂度随维度增加而快速增长
分解的唯一性不总是能保证
参数选择（如组件数）需要经验
对噪声比较敏感

三、常见的张量分解方法

1. CP分解（CANDECOMP/PARAFAC）

CP分解是最基本的张量分解方法，它将一个张量分解为若干个秩-1张量的和。

数学表示：
$\mathcal{X} \approx \sum_{r=1}^R a_r \circ b_r \circ c_r$

其中：

$\mathcal{X}$ 是原始张量
$R$ 是分解的秩
$a_r, b_r, c_r$ 是因子向量
$\circ$ 表示外积运算

2. Tucker分解

Tucker分解是CP分解的一种推广，它引入了一个核心张量和因子矩阵。

数学表示：
$\mathcal{X} \approx \mathcal{G} \times_1 A \times_2 B \times_3 C$

其中：

$\mathcal{G}$ 是核心张量
$A, B, C$ 是因子矩阵
$\times_n$ 表示n-mode积

四、环境准备

首先需要安装必要的Python包：

# requirements.txt
numpy>=1.21.0
matplotlib>=3.4.0
tensorly>=0.7.0
scikit-learn>=0.24.0

五、代码实现

1. 数据准备

import numpy as np
import matplotlib.pyplot as plt
import tensorly as tl
from tensorly.decomposition import parafac
from tensorly.random import random_cp
import os

# 创建images目录（如果不存在）
if not os.path.exists('images'):
    os.makedirs('images')

# 设置随机种子以保证结果可重复
np.random.seed(42)

# 生成一个示例三维张量数据
tensor_shape = (10, 8, 6)  # 10个用户，8个商品，6个时间点
n_components = 3  # CP分解的组件数

# 生成一个具有潜在结构的随机张量
true_tensor = random_cp(tensor_shape, n_components, random_state=42)
true_tensor = tl.cp_to_tensor(true_tensor)

# 添加一些噪声
noise = np.random.normal(0, 0.1, tensor_shape)
noisy_tensor = true_tensor + noise

2. 执行CP分解

# 使用CP分解
weights, factors = parafac(noisy_tensor, n_components, n_iter_max=100, init='random')

# 重构张量
reconstructed_tensor = tl.cp_to_tensor((weights, factors))

# 计算重构误差
reconstruction_error = np.linalg.norm(noisy_tensor - reconstructed_tensor) / np.linalg.norm(noisy_tensor)
print(f"重构相对误差: {reconstruction_error:.4f}")

3. 可视化结果

# 可视化原始数据和重构数据的比较（第一个时间点的切片）
plt.figure(figsize=(12, 4))

# 原始数据
plt.subplot(131)
plt.imshow(noisy_tensor[:, :, 0], cmap='coolwarm')
plt.title('原始数据 (t=0)')
plt.colorbar()

# 重构数据
plt.subplot(132)
plt.imshow(reconstructed_tensor[:, :, 0], cmap='coolwarm')
plt.title('重构数据 (t=0)')
plt.colorbar()

# 误差
plt.subplot(133)
plt.imshow(noisy_tensor[:, :, 0] - reconstructed_tensor[:, :, 0], cmap='coolwarm')
plt.title('误差 (t=0)')
plt.colorbar()

plt.tight_layout()
plt.savefig('images/tensor_decomposition_comparison.png')
plt.close()

4. 分析因子矩阵

# 可视化各个因子矩阵
plt.figure(figsize=(15, 4))

# 用户因子
plt.subplot(131)
plt.imshow(factors[0], cmap='coolwarm', aspect='auto')
plt.title('用户因子矩阵')
plt.colorbar()

# 商品因子
plt.subplot(132)
plt.imshow(factors[1], cmap='coolwarm', aspect='auto')
plt.title('商品因子矩阵')
plt.colorbar()

# 时间因子
plt.subplot(133)
plt.imshow(factors[2], cmap='coolwarm', aspect='auto')
plt.title('时间因子矩阵')
plt.colorbar()

plt.tight_layout()
plt.savefig('images/factor_matrices.png')
plt.close()