
Data mining
kakak_
这个作者很懒,什么都没留下…
展开
-
Dataframe
Dataframe–apply, transform, aggSeries.transform( func, axis=0, *args, **kwargs)Series.agg( func, axis=0, *args, **kwargs)DataFrame.agg( func, axis=0, *args, **kwargs)df = pd.DataFrame({'A': range(3), 'B': range(1, 4)}) A B0 0 11 1 22 2 3原创 2020-10-09 11:17:16 · 238 阅读 · 0 评论 -
sql数据库
一些最重要的 SQL 命令分号是在数据库系统中分隔每条 SQL 语句的标准方法,这样就可以在对服务器的相同请求中执行一条以上的 SQL 语句。SELECT - 从数据库中提取数据UPDATE - 更新数据库中的数据DELETE - 从数据库中删除数据INSERT INTO - 向数据库中插入新数据CREATE DATABASE - 创建新数据库ALTER DATABASE - 修改...原创 2020-04-18 22:44:53 · 98 阅读 · 0 评论 -
缺失值处理
直接使用含有缺失值的特征删除含有缺失值的特征缺失值补全缺失值补全均值插补、同类均值插补、建模预测、高维映射、多重插补、极大似然估计、压缩感知和矩阵补全均值插补如果样本属性的距离是可度量的,则使用该属性有效值的平均值来插补缺失的值;如果的距离是不可度量的,则使用该属性有效值的众数来插补缺失的值。...原创 2020-05-26 16:37:42 · 224 阅读 · 0 评论 -
HMM
HMM(隐马尔可夫模型)隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,用来描述一个含有未知参数的马尔可夫链所生成的不可观测的状态随机序列,再由各个状态生成观测随机序列的过程。其难点是从可观察的参数中确定该过程的隐含参数。马尔可夫性质:无记忆性,这一时刻的状态,受且仅受前一时刻的影响。马尔可夫链:在给定当前信息的情况下,过去的信息状态对于预测将来状态是...原创 2020-04-21 12:51:25 · 291 阅读 · 0 评论 -
Factorization Machines
分解机(Factorization Machines,FM)推荐算法原理在推荐系统中,特征经过one-hot编码后,数据矩阵往往是十分稀疏的,而原本分类任务中最强的单模型——SVM又对高维稀疏的数据十分的不敏感,无法找到一个好的分割超平面。FM就是为了解决数据稀疏的情况下,特征组合的问题。与SVM不同的是,它不适用kernel,而是将参数矩阵进行分解,用sparse的数据来训练分解后的向量,...原创 2020-04-20 14:34:59 · 230 阅读 · 0 评论 -
SKlearn.mixture
GMM Gaussian Mixture Model是EM算法在混合高斯分布的实现SKlearn.mixture.GaussianMixturen_components: 混合高斯模型个数,默认为1covariance_type: 协方差类型,默认‘full’ ;‘full’完全协方差矩阵(元素都不为零)‘tied’相同的完全协方差矩阵(HMM会用到) ‘diag’对角协方差矩阵(...原创 2020-04-10 15:58:41 · 905 阅读 · 0 评论 -
EM
期望最大化(Expectation-Maximum)算法,是隐式马尔科夫算法(HMM), LDA主题模型变分推断的基础算法。从样本观察数据中,找出样本的模型参数,最常用的方法就是极大化模型分布的对数似然函数。但有时得到的观察数据有未观察到的隐含数据,因而无法直接用极大化对数似然函数得到模型分布的参数。可以先猜想隐含数据(EM算法的E步),接着基于观察数据和猜测的隐含数据一起来极大化对数似然,...原创 2020-04-10 14:15:59 · 277 阅读 · 0 评论 -
Novelty Detection
非监督学习算法做特征工程的时候需要对异常数据做过滤,防止对归一化等处理的结果产生影响。对没有标记输出的特征数据做筛选,找出异常的数据...原创 2020-04-09 11:26:06 · 941 阅读 · 0 评论 -
Sklearn.preprocessing
缺失值处理Sklearn.impute.SimpleImputer([missing_values])首先看该特征是连续值还是离散值。如果是连续值,一是取所有有该特征值样本的平均值来填充缺失值,另一种是取中位数来填充缺失值。如果是离散值,则一般会选择所有有该特征值的样本中最频繁出现的类别值,来填充缺失值。missing_values:默认为NaN(缺失值numpy.nan用字符串‘Na...原创 2020-04-04 19:06:24 · 433 阅读 · 0 评论 -
Sklearn.feature_selection
选择合适的特征预选出特征集:可以询问该领域懂业务的专家,让他们给一些建议。较大影响的和较小影响的特征都选入候选集。过滤法选择特征特征集合很大时,在尝试降维之前,有必要用特征工程的方法去选择出较重要的特征结合。过滤法:按照特征的发散性或者相关性指标对各个特征进行评分,设定评分阈值或者待选择阈值的个数,选择合适特征。feature_selection.VarianceThr...原创 2020-04-04 17:37:04 · 460 阅读 · 1 评论 -
sklearn.feature_extraction
TF-IDF是Term Frequency - Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。IDF(x)=logNN(x)IDF(x) = log\frac{N}{N(x)}IDF(x)=logN(x)Nfrom sklearn.feature_extraction.text import TfidfVectorizertfidf = = TfidfVectorizer(stop_words=stpwrdlst, subli.原创 2020-06-02 00:24:25 · 565 阅读 · 0 评论