
机器学习
wshzd
机器学习,深度学习,NLP,强化学习
展开
-
window本地电脑jupyter使用linux服务器GPU
window本地电脑jupyter使用linux服务器GPU三部曲原创 2022-07-26 17:51:05 · 863 阅读 · 0 评论 -
python sklearn2pmml保存tfidf+kmeans模型
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer, TfidfVectorizerfrom sklearn2pmml.feature_extraction.text import Splitterfrom sklearn.cluster import KMeansfrom sklear...原创 2019-07-22 11:33:40 · 2086 阅读 · 0 评论 -
python训练模型,java预测模型(sklearn2pmml)
很多情况下,线上一般使用java,然后训练机器学习模型一般都是python,那么就存在一个问题,python训练的模型,java怎么去调用进行线上预测呢,下面以随机森林算法来介绍一下这个过程python脚本如下:#!/usr/bin/python# -*- coding:utf-8 -*-from sklearn import treefrom sklearn2pmml.pip...原创 2019-07-09 17:21:26 · 3091 阅读 · 0 评论 -
kmeans中的k选择
下面通过python定义一个函数来实现kmeans中k的选择,输入为可选择k的最大值和原始数据,最后输出不同k的折线图,一般选择图中拐点def SelectK(maxK,totalList): from scipy.spatial.distance import cdist K = range(1, maxK) meandistortions = [] for ...原创 2019-06-14 15:51:40 · 2685 阅读 · 0 评论 -
java实现Viterbi算法
package com.bj58.dia.rec.gul.wpai.dlpredictonline.impl;public class Viterbi { static private int[] status = { 0, 1, 2 }; static private int[] observations = { 1, 6, 3, 5, 2, 7, 3, 5, 2, 4 }...转载 2019-04-16 17:52:36 · 800 阅读 · 0 评论 -
机器学习fit模型时报错
ValueError: Input contains NaN, infinity or a value too large for dtype('float32').解决办法:https://www.kaggle.com/c/word2vec-nlp-tutorial/forums/t/11266/valueerror-array-contains-nan-or-inf转载 2017-12-26 17:26:19 · 2894 阅读 · 0 评论 -
python 处理dataframe中的时间字段
在机器学习过程中,通常会通过pandas读取csv文件,保持成dadaframe格式,然而有时候需要对dataframe中的时间字段进行数据建模,比如时间格式为datetime,那么像一般操作dataframe的方式来操作时间字段会报错的,所以在使用sklearn库进行fit和predict的时候,通常要把时间字段首先转换为timestamp格式,在fit和predict之后,如果需要matplo原创 2017-08-18 15:52:24 · 15941 阅读 · 0 评论 -
python matplotlib 画dataframe的时间序列图
在python中经常会用到pandas来处理数据,最常用的数据类型是dataframe,但是有时候在dataframe有时间字段需要画时间序列图的时候会遇到一些问题,下面是我处理这个问题的一个小案例,希望可以帮到在坑里的小朋友哦,开个小玩笑。code as fallows:doc_list = []doc_target = doc.iloc[:, 141:142]for i in do原创 2017-08-14 16:44:45 · 18347 阅读 · 0 评论 -
python 自定义线性回归
在实际工作中,有时候sklearn库的标准API不能满足业务需求,这时候需要自定义算法,下面是我自定义的标准线性回归函数,如果有需要,可以在此基础上进行扩展,比如局部加权线性回归的定义class self_linear_model(): def __init__(self): self.w = None def fit(self, X, y):原创 2017-08-10 10:20:38 · 1021 阅读 · 0 评论 -
机器学习 特征选择
链接:https://www.zhihu.com/question/28641663/answer/41653367特征选择是特征工程中的重要问题(另一个重要的问题是特征提取),坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程尤其是特征选择在机器学习中占有相当重要的地位。通常而言,特征选择是指选择获得相应模型和算法最好性能的特征集,工程上常用的转载 2017-06-27 09:40:19 · 381 阅读 · 0 评论 -
pandas read_csv 读取中文列标题文件报错
data = pd.read_csv(path)Traceback (most recent call last): File "C:/Users/arron/PycharmProjects/ML/ML/test.py", line 45, in data = pd.read_csv(path) File "C:\Users\arron\AppData\Loca原创 2017-06-26 13:57:03 · 19197 阅读 · 0 评论 -
python matplotlib 画直方图报错
python使用matplotlib.pyplot画直方图时报错如下:max must be larger than min in range parameter原因是数据中带有缺失值,请使用dropna()进行缺失值删除即可原创 2017-07-11 17:44:00 · 1735 阅读 · 1 评论 -
spark python 机器学习
http://blog.youkuaiyun.com/u013719780?viewmode=contents转载 2017-06-29 10:34:33 · 316 阅读 · 0 评论