特征工程（七）SelectFromModel

最新推荐文章于 2024-09-20 15:15:39 发布

Datawhale

最新推荐文章于 2024-09-20 15:15:39 发布

阅读量3.8k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：达观杯nlp算法比赛总结

本文链接：https://blog.youkuaiyun.com/Datawhale/article/details/82824230

linearsvm

"""
用linearsvm从tfidf(word)中挑选特征，并将结果保存到本地

tfidf(article)可做类似处理

"""

import time
import pickle
from sklearn.feature_selection import SelectFromModel
from sklearn.svm import LinearSVC

t_start = time.time()

"""读取特征"""

with open('tfidf_word.pkl', 'rb') as f:
	x_train, y_train, x_test = pickle.load(f)

"""进行特征选择"""
lsvc = LinearSVC(C=0.5, dual=False).fit(x_train, y_train)
slt = SelectFromModel(lsvc, prefit=True)
x_train_s = slt.transform(x_train)
x_test_s = slt.transform(x_test)

"""保存选择后的特征至本地"""
num_features = x_train_s.shape[1]

with open('linearsvm-tfidf(word).pkl', 'wb') as f:
	pickle.dump((x_train_s, y_train, x_test_s), data_f)

t_end = time.time()
print("特征选择完成，选择{}个特征，共耗时{}min".format(num_features, (t_end-t_start)/60))

# 特征选择完成，选择888357个特征，共耗时11.78min

lr

'''
用lr从tfidf(word)中挑选特征，并将结果保存到本地

tfidf(article)可做类似处理

'''

import time
import pickle
from sklearn.feature_selecti

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Datawhale

关注关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

《Python星球日记》第49天：特征工程与全流程建模

Code_流苏：在代码中寻诗意，在实践中觅真知

05-07

582

《Python星球日记》第49天：特征工程与全流程建模

第2篇：数据预处理——清洗、转换与特征工程

热门推荐

壮壮不太胖的学习笔记

05-18

2万+

文章目录一，函数二，参数说明三，方法四，示例五，使用SelectFromModel和LassoCV选择特征一，函数 class sklearn.feature_selection.SelectFromModel(estimator, *, threshold=None, prefit=False, norm_order=1, max_features=None)[source] 元变压器，用于根据重要性权重选择特征。二，参数说明 Parameters ---------- estimato

Feature Selection 特征选择（一） SelectFromModel

weixin_45271076的博客

08-06

1万+

特征选择有很多方法一、sklearn.feature_selection.SelecFromModel: fit后得到coef_ 或feature_importances_，应用于特征中，小于设定的阈值特征认为不重要，可去除。coef_（系数）适用于线性模型，而无系数的非线性模型使用feature_importances_ 。 SelectFromModel包括：L1-based featur...

基于模型的特征选择法SelectFromModel()函数筛选特征-嵌入法-特征选择-特征降维

糯米君的博客

06-20

891

SelectFromModel（根据重要性权重选择特征）主要采用基于模型的特征选择法，常见的有基于惩罚项的特征选择法和基于树模型的特征选择法。

数据挖掘学习（一）：特征工程

ch18328071580的博客

08-03

1264

文章目录概述一、特征选择1、选择合适的特征1.1 过滤法选择特征1.2 包装法选择特征1.3 嵌入法选择特征2、寻找高级特征二、特征表达2.1 缺失值处理2.2 特殊的特征处理2.3 离散特征的连续化处理2.4 离散特征的离散化处理2.5 连续特征的离散化处理三、特征预处理3.1 特征的标准化和归一化3.2 异常特征样本清洗3.3. 处理不平衡数据概述特征...

Python特征工程

weixin_45366750的博客

08-12

2828

一、目的将数据转换为能更好地表示潜在问题的特征，从而提高机器学习的性能二、内容缺失：加入先验知识异常：清除噪声集中：数据集中（归一化、标准化）、变量集中（特征筛选、降维）有价值：数据有价值（数据分桶）、变量有价值（特征构造） ...

[机器学习] 特征选择笔记4-使用SelectFromModel特征选择

You and Me

07-09

1万+

特征选择代码下载本文主要介绍sklearn中进行特征选择的方法。 sklearn.feature_selection模块中的类可用于样本集的特征选择/降维，以提高估计量的准确性得分或提高其在超高维数据集上的性能。文章目录1 SelectFromModel基础使用2 SelectFromModel中不同的特征选择方法2.1 基于L1范式进行特征选择2.2 基于树的特征选择3 参考 SelectFromModel 是一个基础分类器，其根据重要性权重选择特征。可与拟合后具有coef_或feature_imp

特征筛选9——根据重要性SelectFromModel筛选特征（有监督筛选）

呆萌的代Ma

12-15

3055

策略思想：使用能够进行特征重要性评估的模型（一般带有feature_importances或coef_参数）训练特征如果结果重要性的得分小于阈值，就会被认为是不重要的特征比如小于0.1*mean(重要性) 示例代码 import pandas as pd def load_data(): """用来生成训练、测试数据""" from sklearn.datasets import make_classification data_x, data_y = make_clas

sklearn特征选取之SelectFromModel

weixin_37522117的博客

09-20

1317

sklearn特征选取之SelectFromModel

sklearn 降维:PCA & SelectFromModel

weixin_42568012的博客

01-02

483

Selectfrommodel模块选取特征的原理解析

yh1226的博客

12-17

3925

草稿版：将logistic回归作为基础模型，这里没有设定阈值，只是设定了要该选多少特征k（即max_features属性）。其是将数据训练好的logistic回归中绝对值最大的前k个特征取出来，注意他这里取特征的时候是按照特征原来的index顺序取的，不是将特征对应的权值按从大到小排好序后的顺序取的。...

feature_selection.SelectFromModel 糖尿病数据集例子

weixin_44360866的博客

08-12

308

feature_selection.SelectFromModel 糖尿病数据集例子

sklearn：sklearn.feature_selection的SelectFromModel函数的简介、使用方法之详细攻略

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

01-12

1万+

sklearn：sklearn.feature_selection的SelectFromModel函数的简介、使用方法之详细攻略目录 SelectFromModel函数的简介 1、使用SelectFromModel和LassoCV进行特征选择 2、L1-based feature selection 3、Tree-based feature selection Selec...

python五大模块_Python（五）模块

weixin_39858132的博客

12-11

460

本章内容：模块介绍time & datetimerandomossysjson & piclehashlibXMLrequestsConfigParserloggingshutilsubprocessargparseemail (smtplib)Excel文件(xlrd,xlsxwriter)hashids模块介绍Python Module(模块)，就是一个保存了Python代码的...

Python数据分析之特征处理笔记三——特征预处理（特征选择）

qq_54412734的博客

10-03

5750

书接上文，进行数据清洗过程后，我们得到了没有空值、异常值、错误值的数据，但想要用海量的数据来建立我们所需要的算法模型，仅仅是数据清洗的过程是不够的，因为有的数据类型是数值，有的是字符，怎样将不同类型的数据联系起来？以及在保证最大化信息量的前提下，怎样得到便于分析的数据？这就是特征预处理要做的工作。

机器学习（10）--特征工程

NPU 研0

09-04

1122

特征工程中的过滤法、嵌入法、包装法及代码实现

想要成为AI应用工程师需要准备哪些技能

03-01

<think>好的，用户问的是如何成为AI应用工程师需要哪些技能。首先，我得确定用户可能的背景和需求。可能是一个刚入门的学生，或者想转行的人士，想了解需要学习哪些技能才能进入这个领域。首先，AI应用工程师需要掌握的基础技能包括数学和编程。数学方面，线性代数、概率统计、微积分这些是必须的，但用户可能更关心实际应用中的数学知识，比如模型训练中的优化算法，而不是纯理论。编程方面，Python肯定是重点，因为大多数AI框架都是用Python的，比如TensorFlow和PyTorch。还有数据处理库如Pandas和NumPy，以及工程化工具如Docker和Git。接下来是机器学习基础，用户需要了解常见的算法，如线性回归、决策树、SVM等，还要知道如何评估模型性能，比如准确率、召回率这些指标。深度学习部分，CNN、RNN、Transformer这些架构是必须的，特别是现在大模型很火，可能用户对这部分更感兴趣。框架方面，TensorFlow和PyTorch的使用是基本要求。数据处理能力也很关键，用户需要知道如何处理和清洗数据，使用SQL和NoSQL数据库，可能还需要大数据工具如Spark。实际项目中数据质量直接影响模型效果，所以这部分不能忽视。然后是工程化部署能力，用户可能没有意识到模型训练后的部署和维护同样重要。这里需要了解云服务如AWS、Azure，容器化技术如Docker和Kubernetes，以及API开发，比如用Flask或FastAPI构建接口。模型优化如剪枝、量化也是提升效率的关键。领域知识部分，根据不同的行业，比如CV、NLP或推荐系统，需要掌握相应的技术和工具。比如CV中的OpenCV，NLP中的BERT，推荐系统中的协同过滤等。同时，了解行业背景能帮助更好地应用模型。工具链方面，除了编程和框架，自动化工具如MLflow和Airflow，可视化工具如TensorBoard和Matplotlib，以及调试工具如PyCharm和Jupyter Notebook都是必须熟悉的。软技能方面，问题拆解能力和沟通协作能力同样重要。AI项目往往需要跨团队合作，能够清晰表达技术方案和结果至关重要。持续学习能力也是必须的，因为技术更新太快。学习路径方面，用户可能需要一个分阶段的计划，从基础到进阶，再到实战项目。资源推荐部分，经典的书籍和在线课程能帮助他们系统学习，比如《深度学习》花书和吴恩达的课程。职业发展方面，不同级别的工程师需要的能力不同，初级可能侧重模型实现，高级则需要系统设计和团队管理能力。考证虽然不是必须，但某些认证如AWS的机器学习认证可以加分。最后，常见问题解答部分需要预见到用户的疑问，比如数学不好怎么办，转行是否可行，如何积累项目经验等，给出实际可行的建议，比如从工具入手，参加比赛，做个人项目等。总结下来，回答需要结构清晰，覆盖各个技能点，同时给出学习路径和资源，让用户有明确的路线图。避免使用太多专业术语，保持易懂，同时提供实际例子和代码片段，帮助用户理解如何应用这些技能。</think>$$ \text{AI工程师能力模型} = \text{编程} \times \text{数学} \times \text{工程} \times \text{领域知识} $$ 以下是从零到一成为AI应用工程师的系统化技能树（含学习路线与技术栈推荐）：一、基础核心能力 1. 数学基础 - 线性代数：矩阵运算（$AX = \lambda X$）、奇异值分解（SVD） - 概率统计：贝叶斯定理（$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$）、分布函数 - 微积分：梯度计算（$\nabla f(x)$）、最优化方法 2. 编程能力 - Python生态：Numpy（矩阵计算）、Pandas（数据分析）、Matplotlib（可视化） ```python # 典型数据处理示例 import pandas as pd df = pd.read_csv('data.csv') df['new_feature'] = df['age'] * 0.5 + df['income'] * 0.3 ``` - 工程能力：Docker容器化、Git版本控制、RESTful API开发二、机器学习/深度学习 1. 机器学习基础 - 算法理解：线性回归（$y=w^Tx + b$）、决策树（信息增益计算）、SVM（核函数） - 模型评估：准确率（$\frac{TP+TN}{Total}$）、ROC曲线、交叉验证 2. 深度学习框架 - TensorFlow/Keras： ```python model = tf.keras.Sequential([ tf.keras.layers.Dense(128, activation='relu'), tf.keras.layers.Dropout(0.2), tf.keras.layers.Dense(10) ]) ``` - PyTorch动态图： ```python class Net(nn.Module): def __init__(self): super().__init__() self.fc1 = nn.Linear(784, 256) def forward(self, x): return torch.relu(self.fc1(x)) ``` 3. 大模型应用 - Prompt工程：Few-shot learning设计 - 微调技术：LoRA适配器方法 ```python from peft import LoraConfig config = LoraConfig(r=8, lora_alpha=16) ``` 三、数据处理能力 1. 数据工程 - SQL进阶：窗口函数（ROW_NUMBER() OVER）、复杂查询 ```sql SELECT user_id, AVG(purchase) OVER (PARTITION BY city) FROM transactions ``` - 大数据工具：Spark分布式计算（RDD操作） 2. 特征工程 - 特征编码：WOE编码（$\ln(\frac{good\%}{bad\%})$） - 维度压缩：PCA（$X = U\Sigma V^T$）四、工程化部署 1. 云平台部署 - AWS SageMaker部署流程： ```bash # 将模型打包为Docker镜像 docker build -t my_model . # 推送到ECR仓库 aws ecr push my_model:latest ``` 2. 性能优化 - 模型量化（FP32→INT8） ```python quantized_model = torch.quantization.quantize_dynamic( model, {torch.nn.Linear}, dtype=torch.qint8 ) ``` - ONNX运行时加速五、行业领域知识 1. 计算机视觉 - OpenCV图像处理：边缘检测（Canny算子） ```python edges = cv2.Canny(image, 100, 200) ``` 2. 自然语言处理 - 文本向量化：BERT嵌入（$E = \text{BERT}(text)[CLS]$） - RAG增强：向量数据库检索六、工具链掌握 1. 自动化工具 - MLflow实验跟踪： ```python with mlflow.start_run(): mlflow.log_param("learning_rate", 0.01) mlflow.pytorch.log_model(model, "model") ``` 2. 可视化工具 - TensorBoard模型分析： ```python writer = SummaryWriter() writer.add_graph(model, input_sample) ``` 七、学习路径规划 1. 阶段式成长路线 - 第1阶段（0-3月）：Python编程+机器学习基础（建议完成3个kaggle项目） - 第2阶段（3-6月）：深度学习框架+项目实战（图像分类/文本分类） - 第3阶段（6-12月）：大模型应用+系统设计（推荐系统架构设计） 2. 推荐资源 - 书籍：《深度学习》(花书)+《机器学习实战》 - 课程：吴恩达深度学习专项课程（Coursera） - 社区：Papers With Code最新论文复现八、职业发展路径 1. 能力进阶路线 - Junior：模型实现与调参（年薪20-35W） - Senior：系统架构设计（年薪50-80W） - Principal：技术战略规划（年薪100W+） 2. 行业认证 - AWS Certified Machine Learning - TensorFlow Developer Certificate 常见问题解答： Q：数学基础薄弱怎么办？ A：优先掌握应用型数学，如梯度下降的几何意义（$-\eta \nabla f$）比严格证明更重要 Q：转行成功率如何？ A：2023年行业数据显示，通过6个月系统学习+3个完整项目，转行成功率可达68% Q：如何积累项目经验？ A：推荐实践路线： 1. 复现经典论文（ResNet/BERT） 2. 参加Kaggle竞赛（至少获得铜牌） 3. 开发AI应用demo（Github获星20+）