
机器学习
文章平均质量分 57
pingzishinee
这个作者很懒,什么都没留下…
展开
-
jieba分词词性对照表
形容词(1个一类,4个二类)a 形容词ad 副形词an 名形词ag 形容词性语素al 形容词性惯用语区别词(1个一类,2个二类)b 区别词bl 区别词性惯用语连词(1个一类,1个二类)c 连词cc 并列连词副词(1个一类)d 副词叹词(1个一类)e 叹词方位词(1个一类)f 方位词前缀(1个一类)h 前缀后缀(1个一类)k 后缀数词(1个一类,1个二类)m 数词mq 数量词名词 (1个一类,7个二类,5个三类)名词分为以下子类:n 名词原创 2021-06-15 15:23:12 · 660 阅读 · 0 评论 -
sklearn中模型保存与加载
用哪个库joblibfrom sklearn.externals import joblib怎么保存假如训练的模型名字叫model_onejolib.dump(model_name, ‘保存路径/model_name.pkl’)怎么加载model_name= joblib.load(‘被保存的路径/model_name.pkl’)case摘自该博客https://blog.youkuaiyun.com/qq_41855990/article/details/107424628写得很棒。def原创 2020-11-03 17:05:21 · 1092 阅读 · 2 评论 -
做模型的几个数据集、几个误差
首先知道几个概念:数据:训练集验证集测试集误差:训练误差验证误差测试误差已知样本集(X, Y):(X_train, y_train)——去fit模型(训练)(X_valid, y_valid)——去evaluate当前模型(评估)===》选择出模型新样本集(X_test):用最合适的模型去Predict它===》得出y_pred。 (预测)...原创 2020-10-28 16:04:09 · 319 阅读 · 0 评论 -
隐马尔可夫hmm
文章目录前言隐马尔可夫概念掷骰子case用HMM做模拟需要知道和HMM模型相关的算法分三类,解决三种问题总结HMM模型key wordcase总结,理解上述key word带着问题,我们的业务看经典图,分析**业务已有什么,没有什么,目标是什么已有:没有:目标目标1:目标2:目标3:启发到的初步建模思路前言1、概念、原理2、可以获得启发的case股票预测(待补充天气预报预测(待补充3、调研目的为业务建模寻求灵感隐马尔可夫概念##隐马尔科夫假设任意时刻的状态只依赖于其前一时刻的状态。(最简原创 2020-10-20 16:40:28 · 307 阅读 · 0 评论 -
transfor learning了解
引入如何充分利用之前标注好的数据,又保证在新的任务上的模型精度?——迁移学习目标将某个领域或任务上学到的知识或模式应用到不同但相关的领域或问题中。思想从相关领域中迁移标注数据或知识结构、完成或改进目标领域或任务的学习效果。“举一反三”概念域Domain: 某个时刻的特定领域。如书本评论和电视剧评论。源领域目标领域源领域和目标领域的数据分布任务Task关键点用什么迁移?what (桥梁是什么)如何迁移?how (基于实例的迁移、基于特征的迁移、基于共享参数的迁移)何时原创 2020-08-31 15:16:01 · 910 阅读 · 0 评论 -
来自行星模型的启发——谈模型之简单与复杂
读《数学之美》一书,作者谈行星模型,受到启发,我想谈谈数据挖掘建模中的模型复杂度问题。托勒密的地心说模型,大圆套小圆,十分复杂,然而模型是错误的;开普勒的日心说模型,椭圆模型,模型简单,并且模型是正确的。我想到了机器学习中的一个名词 “奥卡姆剃刀”。“奥卡姆剃刀”原则说的是什么呢?当两个模型都可以解决一个问题的时候,一个复杂点,一个简单点。那么建议我们选择哪一个呢?答案是简单一点的。为什么?...原创 2019-03-24 18:49:35 · 788 阅读 · 0 评论 -
K-means算法原理、代码实现,优缺点及改进
k-Means是一种无监督的聚类算法,实现起来比较简单,聚类效果也不错,因此被广泛应用。原理物以类聚,人以群分。无监督 聚类。简单地说,就是把相似的物体聚到一个簇。同一簇内相似度尽可能大,不同簇间相似度尽可能低。采用距离度量相似程度。算法1、初始化k个中心点,有了k个簇2、对所有样本,计算每个样本与k个中心点的距离,将各样本划分到距离最近的中心点所在的簇3、重新计算各簇的中心:为各...原创 2019-02-26 11:20:31 · 3095 阅读 · 3 评论 -
分类中样本类别不均衡问题及解决
先简单总结一下,具体写在笔记里面了。解决方法欠采样过采样不处理样本,分类阈值移动代价敏感学习(先知道)原创 2019-02-20 17:21:29 · 1614 阅读 · 0 评论 -
KNN
KNN原理“近朱者赤,近墨者黑”来一个待分类物体,离这个物体最近的K个点大都属于哪一个类,这个样本就属于哪一个类。步骤1、计算距离:每个物体与待分类物体的距离;(距离是两个物体相似程度的反映)2、距离排序:按从小到大的距离排序距离;3、找出K个近邻:距离最近的前K个物体为近邻们;4、分类:这K个物体中大多数都属于哪一类,该样本就属于哪一个类。可以看到,当数据量非常大的时候KNN会...原创 2019-02-19 18:11:06 · 661 阅读 · 0 评论 -
One-Hot Encoding独热编码
one-hot encoding:The Standard Approach for Categorical FeaturesCategorical feature:如,color of flowers: yellow, red, green。one-hot encoding:一种码制,有多少个状态(或者叫类别值)就有多少个比特,且只有一个比特为1,其它全为0.Pandas offers ...原创 2018-12-13 10:32:58 · 1710 阅读 · 0 评论 -
损失函数
https://blog.youkuaiyun.com/google19890102/article/details/50522945原创 2018-10-17 11:31:32 · 163 阅读 · 0 评论 -
机器学习中正则化项
https://blog.youkuaiyun.com/zouxy09/article/details/24971995https://blog.youkuaiyun.com/jinping_shi/article/details/52433975原创 2018-10-18 21:05:41 · 188 阅读 · 0 评论 -
scala基础概念
Scala是面向行的语言,Scala 语句末尾的分号写或者不写都可以。 对象 - 对象有属性和行为。例如:一只哈士奇的属性有:颜色,名字,行为有:叫、跑、吃等。对象是一个类的实例。 类 - 类是对象的抽象;对象是类的具体实例。 方法 - 方法描述的基本的行为,一个类可以包含多个方法。 字段 - 每个对象都有它唯一的实例变量集合,即字段。对象的属性通过给字段赋值来创建。基本语法原创 2017-05-15 21:49:01 · 468 阅读 · 0 评论 -
机器学习——初步了解
机器学习是什么 计算机利用已有的数据,得出某种模型,并利用此模型预测未来。机器学习的主要目的就是把人的思考归纳经验转化为计算机通过对数据的处理计算得出模型的过程。像人的方式一样解决各种复杂灵活的问题。 一般的机器学习至少考虑两个量:自变量,因变量。机器学习过程: 首先,需要在计算机中将统计到的数据存储起来。然后,将这些数据通过机器学习算法进行处理,这个处理的过程在机器学习中的“训练”。处理的原创 2015-11-22 12:46:22 · 667 阅读 · 0 评论