onehot的transform方法输出矩阵为numpy的稀疏矩阵

最新推荐文章于 2025-06-23 10:12:53 发布

ODIMAYA

最新推荐文章于 2025-06-23 10:12:53 发布

阅读量1.0k

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/ODIMAYA/article/details/105438346

本文探讨了在处理机器学习模型输出的稀疏矩阵时，如何解决与稠密矩阵拼接的问题。通过使用OneHotEncoder对模型应用结果进行编码，并采用todense()函数或scipy.sparse的hstack()函数实现稀疏与稠密矩阵的有效整合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

xgb_enc_1 = OneHotEncoder()
xgb_enc_2 = OneHotEncoder()

xgb_enc_1.fit(model_1.apply(train_gb))
xgb_enc_2.fit(model_2.apply(train_gb))
#transform输出据真为稀疏矩阵，train_lr为numpy的稠密矩阵
temp_1 = xgb_enc_1.transform(model_1.apply(train_lr))
temp_2 = xgb_enc_2.transform(model_2.apply(train_lr))
temp_3 = train_lr

temp_1
Out[24]: 
<256x1624 sparse matrix of type '<class 'numpy.float64'>'
	with 217600 stored elements in Compressed Sparse Row format>

temp_2
Out[25]: 
<256x1977 sparse matrix of type '<class 'numpy.float64'>'
	with 217600 stored elements in Compressed Sparse Row format>

temp_3.shape
Out[31]: (256, 14)

如果直接使用np.hstack进行拼接：

train_lr_ext_2 = np.hstack((temp_1,temp_3))
报错：
ValueError: all the input arrays must have same number of dimensions

稀疏矩阵与稠密矩阵维度不一致，解决此问题两种方法：

todense()函数

 a = temp_1.todense()

train_lr_ext_2 = np.hstack((a,temp_3))

train_lr_ext_2.shape
Out[34]: (256, 1638)

使用scipy.saprse的hstack()函数进行拼接

from scipy.sparse import hstack

b = hstack((temp_1,temp_3))

b.shape
Out[39]: (256, 1638)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ODIMAYA

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

5、使用稀疏矩阵高效处理列联表和图像分割

rgv234567的博客

06-14

本文详细介绍了稀疏矩阵在多个领域的应用，包括图像处理、数据流分析、网络分析等。通过具体示例代码，展示了如何利用SciPy等工具高效处理大规模稀疏数据，并深入探讨了稀疏矩阵在线性代数、图像分割和雷达数据分析中的实际应用。同时，文章还对比了不同窗函数的特性及适用场景，为读者提供了全面的技术参考。

【Python机器学习】零基础掌握矩阵分解函数方法

Mr数据杨

11-01

143

可以看出fastica和这五种矩阵分解方法各有其优点和局限性。和主要用于字典学习，前者适用于小规模数据，而后者更适用于大规模或流数据。fastica是一种专门用于独立成分分析的快速算法，尤其在信号处理中有广泛应用。因其非负约束而在需要解释性的应用场景中受到欢迎。最后，通过稀疏编码提供了一种高度灵活的特征提取方法。选择哪一种方法取决于多种因素，包括数据的规模、特性以及具体的应用需求。因此，在实际应用中，建议先对数据和需求进行全面的分析，然后根据这些分析结果来选择最合适的矩阵分解方法。

参与评论您还未登录，请先登录后发表或查看评论

测试opencv的仿射函数getAffineTransform以及稀疏矩阵变换transform函数（单点仿射）

jellocomeon的专栏

03-14

1748

图像，也就是图像中的点坐标变换，实际就是通过一个2*3的矩阵计算而变换的。前面2行2列做缩放或者旋转，后面2行1列做平移。方程不会打字，拍了以前的笔记：现在我用了个最简单的平移仿射做测试，就是x+100, y+50 我以(0,0)(100,0)(0,50)三点平移变换到(100,50)(200,50)(100,100)三点，那么正确的矩阵应该是1 0 100，0 1 50，则正确； ...

onehot编码后稀疏矩阵转化为密集矩阵的方法

tengchengtu4139的博客

08-16

2422

假设encoder编码后矩阵某一行为（0,0,0,0,0，1,0）则转化为（7,6,1），共有7列，第6列为1

机器学习——离散特征处理之独热编码和稀疏矩阵处理

沉迷单车的追风少年

03-08

2794

独热编码这东西很有趣，和数字电路里面的格雷码有异曲同工之妙！其实也很正常，统计机器学习特别是自然语言处理方面的兴起正是引入了通信领域的数学模型，这段历史很有趣，可以看看吴军老师的《数学之美》。我们在处理机器学习数据的时候经常会见到离散特征的数据，例如水果的颜色、人名等，离散特征的挑战在于不是连续的方式，这导致很难用数字去描述，所以引入独热编码进行处理。独热编码，One-Hot编码，又称为一...

将两个one-hot后的稀疏矩阵拼接

WGS.

11-09

1035

文章目录假数据构造one-hot拼接one-hot后的稀疏矩阵思路一思路二 import pandas as pd, numpy as np, warnings from sklearn.ensemble import GradientBoostingClassifier from sklearn.preprocessing import OneHotEncoder warnings.filterwarnings("ignore", category=DeprecationWarning) 假数据构造

一文搞懂one-hot和embedding

最新发布

rgv234567的博客

06-23

本文深入探讨了稀疏矩阵在高效数据分析中的应用，涵盖多种格式（如COO和CSR）以及其在图像变换、线性代数计算、大规模图分析、信号处理、图像处理、基因组学、机器学习等领域的具体实现。通过使用SciPy库，展示了如何利用稀疏矩阵提高计算效率和内存利用率，并结合实际案例详细说明了其在优化问题中的强大功能。

词频矩阵TfidfVectorizer结果与稀疏矩阵csr_matrix的遍历

NLP翟

06-04

2284

关系 TfidfVectorizer的结果是由csr_matrix这种方式组织的，在数据结构中稀疏矩阵的实现是csr_matrix。这是由于矩阵中有大量的0元素占据了大量的空间，从而采用稀疏矩阵来压缩空间。 csr_matrix可以调用toarray()方法转变为真正的矩阵，利用numpy的索引方式来进行对元素的精确索引。问题但是有时候由于矩阵太大，而使得csr_matrix转变为numpy矩阵时，计算机的内存会“爆掉”。使得无法转变，这就会带来一个问题——无法使用简洁的方式来索引元素。解决方法 ge

深度学习笔记（十二）---One-hot编码

一一

04-10

8992

在学习语义分割过程中，最后的逐像素分类网络中，对像素进行分类时使用了one-hot编码，这也是现分类任务中常用的一种分类方式。那么什么是one-hot编码呢？为什么使用One-hot呢？ One-hot 编码：称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类...

one-hot编码

weixin_43964679的博客

04-08

364

统计语言模型中常用的词向量模型有：One-hot编码，Word2Vec和GloVe等。 One-Hot编码可用于机器学习，将类变量转换为多维向量的形式.。One-Hot采用N位状态寄存器来对N位状态进行编码，每个状态都是由独立的寄存器表示，在任意时候只有一位寄存器有效。One-Hot 采用二进制编码，寄存器的状态由0或1组成，因为只有一位寄存器有效，所以在任意时候，只有一个寄存器的编码为1，其余...

稀疏矩阵（coo_matrix, csr_matrix, csc_matrix）的定义和存取

chao2016的博客

05-16

1万+

1. 定义 1.1 coo_matrix 1.2 csr_matrix 1.3 csc_matrix 2. 存储和读取 2.1 法一：现成的API 2.2 法二：自己发明的笨方法 2.3 更改ndarray数据格式的方法前言：在以下场景中第一次碰到稀疏矩阵： enc = OneHotEncoder() enc.fit(data[feature].values.reshape...

OneHotEncoder函数

UK - UofL HW - SDE

01-28

1万+

OneHotEncoder函数一、函数功能与参数二、函数使用参考修改时间仅介绍常用功能，详情请看结尾参考链接。一、函数功能与参数将分类特征编码为one-hot数字数组。这个转换器的输入应该是一个类似数组的整数或字符串，表示分类（离散）特征所采用的值。使用 one-hot（又名“one-of-K”或“dummy”）编码方案对特征进行编码。这将为每个类别创建一个二进制列并返回一个稀疏矩阵或密集数组（取决于sparse 参数）。默认情况下，编码器根据每个特征中的唯一值派生类别。或者，您也可以categ

【机器学习】onehot编码的各种实现

littlemichelle

12-14

3062

对于定类类型的数据，建议使用one-hot encoding。定类类型就是纯分类，不排序，没有逻辑关系。比如性别分男和女，男女不存在任何逻辑关系，我们不能说男就比女好，或者相反。再者，中国各省市分类也可以用独热编码，同样各省不存在逻辑关系，这时候使用one-hot encoding会合适些。但注意，一般会舍去一个变量，比如男的对立面肯定是女，那么女就是重复信息，所以保留其中一个变量即可。对于定序类型的数据，建议使用label encoding。定序类型也是分类，但有排序逻辑关系，等级上高于定类。比如，学历

1、pytorch之transforms(numpy数据类型转化为tensor,归一化、resize)

qq_15060477的博客

08-22

2490

from torchvision import transforms tensor = transforms.Tensor() #初始化对象 #img_or_np为“PIL Image”或者"numpy.",即你要转化的对象 data = tensor(img_or_np) trans_resize = transforms.Resize(512,512) data = trans_resize(data) #下面将数据data归一化，计算方法为：image=(image-mean)/std ''' 其中

机器学习之One-Hot Encoding详解

愿你远行千里，归来仍是少年

10-25

6722

看到One-Hot-Encoding发现网上大多数说明都是来自于同一个例子，最后结果感觉出的好突兀，因此这里总结一下。很多机器学习任务中，特征并不总是连续值，有可能是分类值。考虑以下三个特征： ["male", "female"] ["from Europe", "from US", "from Asia"] ["uses Firefox", "uses Chrome",...

机器学习之One-Hot Encoding详解-- one-hot编码解释-数据预处理之独热编码（One-Hot Encoding）

qinzaoxiaozhu的专栏

02-25

9995

什么是one-hot编码？one-hot编码，又称独热编码、一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。假设有如下表格，记录了某网站访问者的三个信息：性别，来自，使用的浏览器：考虑以下三个特征：性别：["男","女"] 来自：["北京","上海","广州"] 使用的浏览器：["Firefox","...

数据预处理：one-hot编码（离散型特征）

weixin_40100502的博客

02-08

1078

前面介绍了LabelEnconder和OrdanalEncoder,本文介绍OneHotEnconder.如下贴图表示三个类的区别：再贴一张关于数据类型以及常用的统计量图 sklearn.preprocessing.OneHotEnconder类实现独热编码（1）观察数据（2）实现Sex和Embarked两列的独热编码示例直接生成 from sklearn.preprocessing import OneHotEncoder X = data.iloc[:, 1:-.

如何使用稀疏矩阵

06-06

<think>嗯，用户再次询问稀疏矩阵的具体应用和解决内存错误的方法，看来ta在实际操作中遇到了大矩阵处理的瓶颈。之前虽然提到过数据分块和类型降级，但ta更关注稀疏矩阵这个特定方案，说明问题可能涉及高维特征或网络关系型数据。用户应该是数据科学家或算法工程师，正在处理类似NLP的bag-of-words模型或推荐系统场景——这类数据天然稀疏。ta的焦虑点很明确：明明知道矩阵里90%都是零值，却还在用密集矩阵消耗内存。有趣的是，ta特意提到“参考站内引用”后又澄清非真实需求，暗示需要更落地的技术路径而非理论论述。需要重点强调三个实战要点：首先是格式选择，比如Ta能否接受SciPy的CSR格式索引开销；其次是转换时机，如果原始数据已经是COO格式就要避免转Dense再转Sparse的致命浪费；最后是内存监控，必须让ta看到稀疏化前后的具体内存对比数字才够说服力。啊，差点忽略用户环境限制。在“虚拟内存已调大仍报错”的前提下，要特别提醒GPU场景的特殊性：像PyTorch的sparsetensor在CUDA上的支持有限，如果ta在用深度学习可能得折衷处理。另外当非零元素超过30%时，稀疏矩阵反而会变慢，这个阈值判断对用户决策很关键。示例代码应该包含典型错误场景：比如用toarray()做矩阵乘法这种内存炸弹操作。还要补充冷门但实用的技巧——用scipy.sparse.save_npz直接序列化比pickle省空间50%以上。最后用医疗影像和社交网络的真实案例说明压缩效果，毕竟用户需要具象的收益感知。</think> 以下是如何使用稀疏矩阵解决 `ArrayMemoryError` 的详细方案： --- ### 一、稀疏矩阵的核心原理 **适用场景**：当矩阵中**非零元素比例<5%** 时，稀疏矩阵能显著降低内存占用（约90%+） **数学原理**： $$ \text{内存节省率} = 1 - \frac{\text{稀疏矩阵内存}}{\text{密集矩阵内存}} \times 100\% $$ $$ \text{其中密集矩阵内存} = \text{行数} \times \text{列数} \times \text{元素字节数} $$ --- ### 二、Python实现（SciPy库） #### 1. 创建稀疏矩阵 ```python from scipy import sparse import numpy as np # 生成100,000×100,000的稀疏矩阵（非零元素1%） shape = (100000, 100000) # COO格式（最灵活的存储） coo_matrix = sparse.coo_matrix(( np.array([1.2, 3.4, 5.6]), # 非零值 (np.array([0, 100, 999]), # 行坐标 np.array([99, 1, 99999]))), # 列坐标 shape=shape ) # CSR格式（高效的行操作） csr_matrix = coo_matrix.tocsr() # COO转CSR # 内存对比 dense_memory = shape[0]*shape[1]*8 # 100,000²×8B ≈ 80GB sparse_memory = csr_matrix.data.nbytes + csr_matrix.indptr.nbytes + csr_matrix.indices.nbytes print(f"稀疏矩阵内存: {sparse_memory/(1024**2):.1f} MB (仅为密集矩阵的 {sparse_memory/dense_memory:.2%})") ``` #### 2. 高效操作技巧 ```python # 正确：稀疏矩阵专用乘法 result = csr_matrix.dot(np.random.rand(100000, 10)) # 错误：转换为密集矩阵（将导致内存爆炸） try: dense_version = csr_matrix.toarray() # 触发ArrayMemoryError except MemoryError: print("拒绝转换为密集矩阵！") ``` #### 3. 稀疏矩阵格式选择指南 | 格式 | 适用场景 | 是否可写 | 计算效率 | |--------|---------------------------|----------|----------| | **COO**| 增量构建矩阵[^1] | ✓ | 低 | | **CSR**| 行切片/矩阵乘法[^2] | ✗ | 高 | | **CSC**| 列切片/方程求解 | ✗ | 高 | | **DIA**| 对角线元素为主的结构 | ✗ | 中 | --- ### 三、真实应用场景 #### 案例1：自然语言处理（词袋模型） ```python # 200万文档×50万词汇表 from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer( max_features=500000, binary=True, dtype=np.int8 # 使用1字节存储 ) sparse_bow = vectorizer.fit_transform(text_corpus) # 结果自动为CSR格式 ``` #### 案例2：社交网络分析 ```python # 100万用户的邻接矩阵 adj_matrix = sparse.lil_matrix((1000000, 1000000)) # LIL格式支持动态修改 # 增量添加关系 (用户123关注用户456) adj_matrix[123, 456] = 1 # 转换为CSC格式进行PageRank计算 csc_matrix = adj_matrix.tocsc() ``` --- ### 四、避开稀疏矩阵的"内存陷阱" 1. **避免隐式转换**： ```python # 危险操作：稀疏矩阵与标量比较会生成密集bool矩阵 mask = (csr_matrix > 0) # 内存爆炸！ # 正确做法：使用稀疏矩阵的sign()方法 nonzero_mask = csr_matrix.sign() # 保持稀疏性 ``` 2. **慎用链式操作**： ```python # 低效：连续转换格式 csr_matrix.tocoo().tolil() # 产生额外复制 # 高效：直接构建目标格式 lil_matrix = sparse.lil_matrix(coo_matrix) ``` --- ### 五、进阶内存优化组合 ```mermaid graph LR A[原始数据] --> B{稀疏矩阵<br>适用性检查} B -- 是 --> C[使用COO/CSR格式] B -- 否 --> D[分块处理+数据类型降级] C --> E[避免toarray()转换] D --> F[用np.memmap磁盘映射] E & F --> G[最终结果] ``` ---