featurize 部署deepseek

部署deepseek模型的步骤指南

1.租用featurize上实例

2.安装ollama

curl -fsSL https://ollama.com/install.sh | sh

当输入ollama可以识别这个命令的时候就是安装完成了。

3.安装 deepseek-r1:32b

在这个虚拟机上的下载速度可以达到32M左右,速度还是可以的。

ollama run deepseek-r1:32b

ollama run deepseek-r1:32b

后面速度慢了可以ctrl+C终止掉再来一次,不影响已经下载的。 

 

4.测试答复如何

直接问答就好,这个命令就是运行这个模型的。

怎么退出按Ctrl+d或者输入/bye就可以退出,下次怎么进来,还是这个命令就可以了。

ollama run deepseek-r1:32b

5.如何查看相关模型命令

OllamaGet up and running with large language models.https://ollama.com/search?q=deepseek 

点击进去后可以看到模型有多大,如v3有404G,就要评估一下下载时间了。 

 

在特征工程中,`featurize` 是一种常见的数据预处理技术,用于将原始数据转换为更适合模型训练的格式。不同的库和框架提供了各自的 `featurize` 方法实现,例如 Hugging Face 的 Transformers 库、Scikit-learn 以及 Spark MLlib 等。 ### 使用 `featurize` 进行特征处理的基本方法 #### 文本数据处理(以 Hugging Face Transformers 为例) Hugging Face 提供了强大的文本特征提取功能,特别是在自然语言处理任务中。通过 `transformers` 库中的 `AutoTokenizer` 和 `AutoModelForSequenceClassification` 可以轻松地对文本进行 featurization。 ```python from transformers import AutoTokenizer, AutoModelForSequenceClassification import torch # 加载预训练模型和分词器 model_name = "bert-base-uncased" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForSequenceClassification.from_pretrained("text-classification-model") # 输入文本 text = "This is an example sentence for feature extraction." # 对文本进行编码 inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True) # 获取特征表示 with torch.no_grad(): outputs = model.base_model(**inputs) features = outputs.last_hidden_state # 提取最后一层的隐藏状态作为特征 print(features.shape) # 输出特征维度 ``` 上述代码展示了如何使用 BERT 模型来生成文本的向量表示,这些向量可以作为下游任务的输入特征[^1]。 #### 数值与分类数据(以 Scikit-learn 为例) 对于结构化数据,如数值型或类别型数据,可以使用 Scikit-learn 中的 `ColumnTransformer` 和 `OneHotEncoder` 等工具进行特征转换。 ```python from sklearn.compose import ColumnTransformer from sklearn.preprocessing import StandardScaler, OneHotEncoder import pandas as pd # 示例数据集 data = pd.DataFrame({ 'age': [25, 30, 35], 'gender': ['male', 'female', 'male'], 'income': [50000, 60000, 70000] }) # 定义特征转换管道 preprocessor = ColumnTransformer( transformers=[ ('num', StandardScaler(), ['age', 'income']), ('cat', OneHotEncoder(), ['gender']) ]) # 应用转换 processed_data = preprocessor.fit_transform(data) print(processed_data.toarray()) ``` 此示例演示了如何标准化数值列并独热编码分类变量,从而形成一个适合机器学习模型输入的特征矩阵。 #### 分布式特征处理(以 SynapseML 为例) 当处理大规模数据时,SynapseML 提供了基于 Apache Spark 的分布式特征处理能力。以下是一个简单的例子,展示如何使用 SynapseML 构建情感分析模型的数据流水线。 ```python from synapse.ml.core.platform import * from pyspark.sql.functions import col # 假设我们有一个包含文本数据的 DataFrame from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() data = spark.createDataFrame([ (0, "I love this product!"), (1, "Terrible experience."), (0, "Absolutely fantastic!") ], ["label", "text"]) # 使用 SynapseML 的 Featurizer 来提取文本特征 from synapse.ml.featurize.text import TextFeaturizer from microsoftml import rx_fast_forest featurizer = TextFeaturizer(stopWords removal=True, wordFeatureCount=1000) features_data = featurizer.fit(data).transform(data) # 使用特征训练模型 model = rx_fast_forest(label_col="label", feature_cols=["Features"], num_trees=10) trained_model = model.fit(features_data) # 预测新数据 new_data = spark.createDataFrame([(None, "Great service!")]).toDF("label", "text") new_features = featurizer.transform(new_data) predictions = trained_model.transform(new_features) predictions.select("text", "PredictedLabel").show() ``` 这段代码说明了如何利用 SynapseML 在分布式环境中进行文本特征提取,并结合 MicrosoftML 库训练预测模型[^3]。 --- ### 特征工程实践指南 - **选择合适的特征**:根据问题领域和数据特性选择最相关的特征。 - **避免过拟合**:通过降维技术(如 PCA)减少特征数量,防止模型过度复杂化。 - **特征缩放**:确保所有特征在同一尺度上,有助于提升模型性能。 - **自动化特征工程**:考虑使用自动化工具(如 FeatureTools)来发现潜在有用的特征组合。 - **持续迭代**:随着更多数据的积累,定期重新评估和更新特征集。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

leecheni

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值