14、机器学习中的聚类与回归算法解析

最新推荐文章于 2025-12-04 22:05:42 发布

a1b2c

最新推荐文章于 2025-12-04 22:05:42 发布

阅读量23

点赞数

CC 4.0 BY-SA版权

分类专栏：测试驱动的机器学习文章标签：机器学习聚类回归

本文链接：https://blog.youkuaiyun.com/a1b2c/article/details/154561623

测试驱动的机器学习专栏收录该内容

16 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习中的聚类与回归算法解析

1. EM聚类在爵士音乐数据中的应用

在对爵士音乐数据进行聚类分析时，使用了EM聚类算法。以下是执行分析的脚本：

data = []
artists = []
CSV.foreach('./annotated_jazz_albums.csv', :headers => true) do |row|
  @headers ||= row.headers[2..-1]
  artists << row['artist_album']
  data << row.to_h.values[2..-1].map(&:to_i)
end
data = Matrix[*data]
e = EMClusterer.new(25, data)
e.cluster

然而，EM聚类存在一些问题。首先，它的速度较慢，因为需要计算协方差和均值，效率不高。从Occam’s Razor原则来看，它不太适合处理大量数据的分组问题。其次，对于带注释的爵士音乐数据，由于协方差矩阵是奇异的，聚类无法正常工作。为了解决这个问题，需要将数据的维度压缩到前两个流派索引：

require 'csv'
CSV.open('./less_covariance_jazz_albums.csv', 'wb') do |csv|
  csv << %w[artist_album key_index year].concat(2.times.map {|a| "Genre_#{a}" })
  CSV.foreach('./annotated_jazz_albums.csv', :headers => true) do |row|
    genre_count = 0
    genres = Array.new(2) { 0 }
    genre_idx = 0
    row.to_h.values[4..-1].each_with_index do |g, i|
      break if genre_idx == 2
      if g == '1'
        genres[genre_idx] = i
        genre_idx += 1
      end
    end
    next if genres.count {|a| a == 0 } == genres.length
    csv << [row['artist_album'], row['key_index'], row['year']].concat(genres)
  end
end

即便进行了这样的处理，实际聚类仍然很困难，因为矩阵变得过于不稳定而无法求逆。

聚类虽然有用，但由于它是无监督学习，难以控制。同时，要同时实现一致性、丰富性和尺度不变性是不可能的，这意味着聚类在很多情况下可能用处不大。不过，如果只是想将数据分割成任意的簇，而不关心具体的分割方式，聚类还是有一定作用的。

2. 协同过滤与回归算法

回归是机器学习中最常用的工具之一，其基本思想是将一条线拟合到从X映射到Y的数据上。线性回归是预测数据的一个很好的起点，但在处理数据点较少或非线性的数据时，效果不佳。

2.1 协同过滤

协同过滤在很多场景中都有应用，例如亚马逊的商品推荐。它主要有两个部分：
- 找到与你口味相同的用户。
- 使用这些志同道合的用户的评分来进行推荐。

解决协同过滤问题通常有三种方法：
- 暴力法：一种简单的方法，但随着时间推移会变得越来越慢。
- K近邻搜索：在之前的学习中已经了解过，它比较懒，前期成本低，但对数据有一定假设，并且从K近邻搜索中能了解到的用户信息有限。
- 回归：可以得到一条拟合特征的线，根据回归系数确定用户的喜好，还可以使用矩阵代数快速计算答案，是一种较好的选择。

2.2 线性回归在协同过滤中的应用

线性回归的目标是找到一条最能近似数据的线。例如，根据身高预测体重，虽然会忽略很多异常值，但回归的目的就是回归到均值。线性回归的主要目标是最小化数据的平方误差，其公式为：
[min \sum_{i}^{n} (y - \hat{y})^2]
其中，(\hat{y}) 是从回归模型中得到的值。线性回归的形式为 (y = \alpha + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_nx_n)，通过最小化上述函数来找到系数 (\beta)。

使用Moore - Penrose伪逆，可以通过以下公式得到系数：
[\beta = (X^TX)^{-1}X^Ty]
然而，线性回归存在一个问题，即矩阵乘以其转置有时会是奇异的（不可逆），这种矩阵也被称为病态矩阵，因为数据量不足以得到合理的解。例如：

require 'matrix'
y = Matrix[[1],[2]]
ill_conditioned = Matrix[[1,2,3,4,5,6,7,8,9,10], [10,9,8,7,6,5,4,3,2,1]]
(ill_conditioned.transpose * ill_conditioned).singular? #=> true
(ill_conditioned.transpose * ill_conditioned).inverse #=> Throws an error
conditioned = Matrix[[1,2], [2,1]]
(conditioned.transpose * conditioned).inverse * conditioned.transpose * y #=> Matrix[[(1/1)], [(0/1)]]

当特征数量多于数据点数量时，内部矩阵会变成奇异矩阵，导致无法使用线性回归求解。

下面是一个简单的表格展示线性回归中病态问题的示例：
| Y | X1 | X2 | X3 | X4 | X5 | X6 | X7 | X8 | X9 | X10 |
| — | — | — | — | — | — | — | — | — | — | — |
| 1 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 2 | 10 | 9 | 8 | 7 | 6 | 5 | 4 | 3 | 2 | 1 |

从这个表格可以看出，很多数据是无用的。去除一些无用的列后，问题可能会得到解决：
| Y | X3 | X4 | X7 | X8 |
| — | — | — | — | — |
| 1 | 3 | 4 | 7 | 8 |
| 2 | 8 | 7 | 4 | 3 |

去除更多无用列后，只保留X3和X4，就可以求解：

require 'matrix'
y = Matrix[[1],[2]]
simplified = Matrix[[3,4], [8,7]]
betas = (simplified.transpose * simplified).inverse * simplified.transpose * y
# => Matrix[[(1/11)], [(2/11)]]

3. 引入正则化：岭回归

为了解决线性回归中的病态问题，可以使用核岭回归（正则化回归）。其基本思想是引入一个岭参数，帮助解决病态矩阵的问题。例如：

require 'matrix'
y = Matrix[[1],[2]]
ill_conditioned = Matrix[[1,2,3,4,5,6,7,8,9,10],[10,9,8,7,6,5,4,3,2,1]]
shrinkage = 0.0001
left_half = ill_conditioned.transpose * ill_conditioned + shrinkage * Matrix.identity(ill_conditioned.column_size)
left_half.singular? #=> false
betas = left_half.inverse * ill_conditioned.transpose * y
betas.transpose * ill_conditioned.row(0) #=> Vector[1.0000000549097194]
betas.transpose * ill_conditioned.row(1) #=> Vector[1.9999994492261521]

通过添加收缩因子，克服了奇异矩阵的问题，能够轻松解决病态问题。但还需要处理非线性的问题。

4. 核岭回归

核函数可以将非线性数据转换到一个新的特征空间，使其变得线性。常用的核函数有：
- 齐次多项式：(K(x_i, x_j) = (x_i^Tx_j)^d)
- 非齐次多项式：(K(x_i, x_j) = (x_i^Tx_j + c)^d)
- 径向基函数：(K(x_i, x_j) = e^{-\frac{|x_i - x_j|^2}{2\sigma^2}})

将核函数应用到回归中，方程变为：
[y = y^T (K + \lambda I)^{-1}\kappa]
[K_{ij} = f(x_i, x_j)]
[\kappa_i = f(x_i, x’)]
这样就将线性回归转换为核回归。

5. 啤酒风格的协同过滤

将协同过滤应用到啤酒风格的推荐中。数据集包含啤酒风格、啤酒、酿酒厂、评论者和评论等信息，共有1,586,615条评论、62,260种独特的啤酒、33,388名评论者、5,743家酿酒厂和104种独特的啤酒风格。由于数据量较大，将其加载到数据库中进行分析是更好的选择。

5.1 选择回归进行协同过滤的原因

在大多数机器学习或数据科学的书籍中，很少提到使用回归进行协同过滤，通常会使用矩阵分解来进行推荐。但回归适合确定能够识别某人需求的因素的线性组合，可以用来了解某人的偏好，例如在啤酒评论中，可以判断某人是更喜欢酒精含量还是口感。

5.2 所需工具

为了实现啤酒风格的协同过滤，需要在Postgres中创建一些表。使用Sequel比ActiveRecord更适合小型项目。以下是创建表和加载数据的脚本：

# script/load_db.rb
# Note that this doesn't have to be postgres—you can use sqlite or mysql, too
DB = Sequel.connect('postgres://localhost/beer_reviews')
DB.create_table? :beers do
  primary_key :id
  Integer :beer_style_id, :index => true
  Integer :brewery_id, :index => true
  String :name
  Float :abv
end
DB.create_table? :breweries do
  primary_key :id
  String :name
end
DB.create_table? :reviewers do
  primary_key :id
  String :name
end
DB.create_table? :reviews do
  primary_key :id
  Integer :reviewer_id, :index => true
  Integer :beer_id, :index => true
  Float :overall
  Float :aroma
  Float :appearance
  Float :palate
  Float :taste
end
DB.create_table? :beer_styles do
  primary_key :id
  String :name, :index => true
end

require 'csv'
require 'set'
# brewery_id,brewery_name,review_time,review_overall,review_aroma,review_appearance,review_profilename,beer_style,review_palate,review_tast,beer_name,beer_abv,beer_beerid
breweries = {}
reviewers = {}
beer_styles = {}
if !File.exists?('./beer_reviews/beer_reviews.csv')
  system('bzip2 -cd ./beer_reviews/beer_reviews.csv.bz2 > ./beer_reviews/beer_reviews.csv') or die
end
CSV.foreach('./beer_reviews/beer_reviews.csv', :headers => true) do |line|
  puts line
  if !breweries.has_key?(line.fetch('brewery_name'))
    b = Brewery.create(:name => line.fetch('brewery_name'))
    breweries[line.fetch('brewery_name')] = b.id
  end
  if !reviewers.has_key?(line.fetch('review_profilename'))
    r = Reviewer.create(:name => line.fetch('review_profilename'))
    reviewers[line.fetch('review_profilename')] = r.id
  end
  if !beer_styles.has_key?(line.fetch('beer_style'))
    bs = BeerStyle.create(:name => line.fetch('beer_style'))
    beer_styles[line.fetch('beer_style')] = bs.id
  end
  beer = Beer.create({
    :beer_style_id => beer_styles.fetch(line.fetch('beer_style')),
    :name => line.fetch('beer_name'),
    :abv => line.fetch('beer_abv'),
    :brewery_id => breweries.fetch(line.fetch('brewery_name'))
  })
  Review.create({
    :reviewer_id => reviewers.fetch(line.fetch('review_profilename')),
    :beer_id => beer.id,
    # 这里原代码未完整，推测可能还有其他字段赋值
  })
end

通过以上步骤，可以将啤酒相关的数据加载到数据库中，为后续的协同过滤推荐做好准备。整个过程涉及到聚类、回归等多种机器学习算法的应用，以及数据库的操作，展示了如何从数据处理到模型应用的完整流程。

综上所述，机器学习中的聚类和回归算法在不同场景下有各自的优缺点和适用范围。在实际应用中，需要根据数据的特点和问题的需求选择合适的算法，并进行相应的处理和优化。

机器学习中的聚类与回归算法解析

6. 核岭回归在啤酒风格推荐中的应用

在完成啤酒数据的数据库加载后，接下来可以使用核岭回归算法为用户推荐啤酒风格。核岭回归算法可以帮助我们找到简单的函数来映射一个不适定问题，非常适合基于用户在评论中表达的偏好来推荐啤酒风格。

6.1 算法原理回顾

核岭回归结合了核函数和岭回归的思想。核函数将非线性数据转换到一个新的特征空间，使其在新空间中变得线性，从而可以使用线性回归的方法进行处理。常用的核函数有齐次多项式、非齐次多项式和径向基函数，具体公式如下：
- 齐次多项式：(K(x_i, x_j) = (x_i^Tx_j)^d)
- 非齐次多项式：(K(x_i, x_j) = (x_i^Tx_j + c)^d)
- 径向基函数：(K(x_i, x_j) = e^{-\frac{|x_i - x_j|^2}{2\sigma^2}})

回归方程变为：
[y = y^T (K + \lambda I)^{-1}\kappa]
[K_{ij} = f(x_i, x_j)]
[\kappa_i = f(x_i, x’)]

6.2 实现步骤

以下是使用核岭回归进行啤酒风格推荐的大致步骤：
1. 数据准备 ：从数据库中提取用户对啤酒的评价数据，包括口味、外观、香气等方面的评分，以及啤酒的风格信息。将这些数据整理成适合核岭回归算法输入的格式。
2. 选择核函数 ：根据数据的特点和问题的需求，选择合适的核函数。例如，如果数据具有明显的非线性特征，可以选择径向基函数。
3. 训练模型 ：使用训练数据计算核矩阵 (K)，并根据上述回归方程计算系数。
4. 预测推荐 ：对于新的用户，根据其对部分啤酒的评价数据，计算 (\kappa)，然后使用训练好的模型进行预测，得到用户可能喜欢的啤酒风格。

下面是一个简单的示例代码，展示了如何使用核岭回归进行预测：

require 'matrix'

# 假设这是从数据库中提取的训练数据
X_train = Matrix[[1, 2], [2, 3], [3, 4]]
y_train = Matrix[[1], [2], [3]]

# 选择径向基函数作为核函数
def rbf_kernel(xi, xj, sigma = 1)
  diff = xi - xj
  norm_squared = diff.to_a.flatten.map { |x| x**2 }.sum
  Math.exp(-norm_squared / (2 * sigma**2))
end

# 计算核矩阵 K
K = Matrix.build(X_train.row_size, X_train.row_size) do |i, j|
  rbf_kernel(X_train.row(i), X_train.row(j))
end

# 引入岭参数 lambda
lambda = 0.1
I = Matrix.identity(K.row_size)

# 计算系数
left_half = K + lambda * I
betas = left_half.inverse * y_train

# 假设这是新用户的评价数据
x_new = Matrix[[4, 5]]

# 计算 kappa
kappa = Matrix.build(X_train.row_size, 1) do |i, _|
  rbf_kernel(X_train.row(i), x_new.row(0))
end

# 进行预测
y_pred = betas.transpose * kappa
puts "预测结果: #{y_pred}"

7. 总结与展望

7.1 算法总结

7.2 未来展望

虽然本文介绍的算法在啤酒风格推荐中取得了一定的效果，但仍然存在一些可以改进的地方。例如：
- 特征工程 ：可以进一步挖掘啤酒数据中的特征，如啤酒的酿造工艺、产地等，以提高推荐的准确性。
- 模型融合 ：可以将多种算法进行融合，如将核岭回归与深度学习模型相结合，以充分发挥不同算法的优势。
- 实时推荐 ：在实际应用中，用户的偏好可能会随着时间的推移而发生变化，因此需要实现实时推荐，及时更新推荐结果。

通过不断地改进和优化算法，我们可以提高机器学习在推荐系统中的性能，为用户提供更加个性化、准确的推荐服务。

整个流程可以用以下mermaid流程图表示：

graph LR
    A[数据收集] --> B[数据预处理]
    B --> C[选择算法]
    C --> D{算法类型}
    D -- 聚类 --> E[EM聚类]
    D -- 回归 --> F[线性回归]
    D -- 回归 --> G[岭回归]
    D -- 回归 --> H[核岭回归]
    E --> I[聚类结果分析]
    F --> J[线性回归预测]
    G --> K[岭回归预测]
    H --> L[核岭回归预测]
    I --> M[评估聚类效果]
    J --> N[评估回归效果]
    K --> N
    L --> N
    N --> O[优化与改进]
    O --> P[应用于啤酒推荐]

通过以上步骤和方法，我们可以利用机器学习算法实现啤酒风格的有效推荐，同时也为其他领域的推荐系统提供了参考和借鉴。在实际应用中，需要根据具体情况选择合适的算法和技术，并不断进行优化和改进，以提高推荐的质量和效果。