
机器学习/数据挖掘
文章平均质量分 82
TURING.DT
科技改变世界,技术改变人生。
展开
-
doccano标注工具|为机器学习建模做数据标注
转到“Dataset”页面,然后单击“操作”菜单中的“Export dataset”按钮。在标签编辑器页面中,您可以通过指定标签文本、快捷键、背景颜色和文本颜色来创建标签。创建项目后,点击Dataset按钮,点击Import dataset导入数据。需要注意,市面上的机器学习课程一般都默认数据已标注,在此基础上讲机器学习。然后,选择“Add”按钮以显示表单。根据需要选择项目的功能需求,例如允许单标签,把数据打乱随机显示, 用户之间共享标注。下面我们以外卖评论数据为例,对评论进行判断,标注为正、负面情感。原创 2024-04-03 13:40:45 · 2901 阅读 · 0 评论 -
机器学习模型监控的 9 个技巧
如果您使用不同类型的特征(例如:词嵌入、地理位置坐标),您可能需要将它们解码(例如:分别解码为字符串和城市名称),以便您可以更轻松地分析报表和在绘图中的展示这些特征。这样做的原因是,许多数据问题对样例的某些子集具有关键影响,但它们在整个数据集的影响可能会“消失”,因为当您查看整个数据集的聚合值时,它们的绝对影响不足以感受到。您创建了一些实时警报(电子邮件、移动推送通知等),以在模型以意想不到的方式表现时提醒您,例如奇怪的特征值、缺失的特征、分数太高/太低,等等。监控使用模型做出的决策。原创 2023-02-22 15:53:43 · 1026 阅读 · 0 评论 -
AUC的是如何计算的
metrics.roc_curve默认drop_intermediate为True,然后讲解sklearn包计算AUC的详细流程,并用代码自行实现AUC的计算。文章先介绍如何使用sklearn包计算AUC,这是实际中常用的方法。本文主要讲解AUC是如何计算的,通过本文了解AUC的具体计算过程。算出的fpr和tpr会删掉线性过渡点(即上面图中标黄的点)!从结果可见,自行计算结果与sklearn包运行结果一致。调用sklearn包计算AUC的代码。01.调用sklearn计算AUC。转载 2023-01-04 11:05:52 · 726 阅读 · 0 评论 -
使用sklearn进行在线实时预测(构建可用模型)
前面说到的运行方式是在离线环境中运行,在真实世界中,我们很多时候需要在线实时预测,一种解决方案是将模型服务化,在我们这个场景就是,我告诉你一个鸢尾花的 sepal_length, sepal_width, petal_length, petal_width 之后,你能够快速告诉我这个鸢尾花的类型,借助 flask 等 web 框架,开发一个 web service,实现实时预测。上面的模型对鸢尾花数据进行训练生成一个模型,之后该模型对测试数据进行预测,预测结果为每条数据属于哪种类别。原创 2022-11-18 13:17:20 · 2924 阅读 · 0 评论 -
ClickHouse用户路径分析原理及实现
若只有单条路径app_lunch也算)的所有session,app_lunch1表示以app_lunch为起始事件的session数共有3405,所有数据会分别流向app_lunch2、download2、#-1#2,分别为用户路径为app_lunch->app_lunch->xxx->xxx……如:用户路径为app_lunch->download->#-1#,则此路径内位于第二个节点的download为图中的download2事件,路径内位于第三个节点的#-1#为图中的#-1#3事件。...原创 2022-08-04 15:04:03 · 2517 阅读 · 1 评论 -
最大边界相关算法MMR(Maximal Marginal Relevance) 实践
NLP(自然语言处理)领域一个特别重要的任务叫做——文本摘要自动生成。此任务的主要目的是快速的抽取出一篇文章的主要内容,这样读者就能够通过最少的文字,了解到文章最要想表达的内容。由于抽取出来的摘要表达出了文章最主要的含义,所以在做长文本分类任务时,我们可以采用文本摘要算法将长文本的摘要抽取出来,在采用短文本分类模型去做文本分类,有时会起到出奇的好效果。文本摘要自动生成算法文本摘要抽取算法主要分为两大类: 一种是生成式:生成式一般采用的是监督式学习算法,最常见的就是sequence2sequ...原创 2021-05-26 13:58:20 · 4892 阅读 · 0 评论 -
使用Java调取Python训练的模型
在工业界,我们经常会使用 Python 或 R 来训练离线模型, 使用 Java 来做在线 Web 开发应用——这就涉及到了使用 Java 跨语言来调用 Python 或 R 训练的模型。一、PMMLPMML 是 Predictive Model Markup Language 的缩写,翻译为中文就是“预测模型标记语言”。它是一种基于XML的标准语言,用于表达数据挖掘模型,可以用来在不同的应用程序中交换模型。也就是说它定义了一个标准,不同语言都可以根据这个标准来实现。关于 PMML 内部的实现原理原创 2021-05-06 14:40:47 · 4731 阅读 · 0 评论 -
Pyspark Word2Vec + jieba 训练词向量流程
摘要:用商品描述为语料库训练商品词向量为例,分享一下用pyspark自带word2vec+jieba分词训练词向量的流程.工具:python,pyspark,jieba,pandas,numpy数据格式:自定义词典,语料库均为pyspark dataframe,停用辞典不大,直接使用txt.1 create spark我的pyspark参数设置如下:def create_spark(): sparkconf = SparkConf('jianwangzhilai') \原创 2020-08-13 20:15:20 · 1267 阅读 · 0 评论 -
Pyspark机器学习之Word2Vec(推荐系统内容相似)
Word2Vec简介Word2Vec是一个词嵌入方法,可以计算每个单词在给定的语料库环境下的分布式向量,如果两个单词的语义相近,那么词向量在向量空间中也相互接近,判断向量空间的接近程度来判断来两个单词是否相似。Word2Vec数学原理首先导入Word2Vec所需要的包,并创建可以代表文档的词语序列from pyspark.ml.feature import Word2Vecfrom pyspark.sql import SparkSessionspark= SparkSession原创 2020-08-13 20:07:19 · 1348 阅读 · 0 评论 -
pyspark提交代码到yarn模式,报错ImportError: No module
上一篇:PySpark任务在YARN集群上运行 关联python包numpy pandas scipy 等问题:在提交ALS.train代码到yarn模式的时候,会出现如下报错:import numpy as npImportError: No module named numpy说pandas的的dependency numpy包不存在,但事实上install pandas时,numpy必定是已经装过的,所以就到处找,应该是环境没有设置解决方式:1. 创建虚拟python环境.原创 2020-06-23 15:20:45 · 1883 阅读 · 0 评论 -
Spark ALS 协同过滤(CF)如何将Str类型的userID或itemID转换为Rating中要求的int类型
/*** 问题:* 在对数据进行训练时,Rating要求的是int,int,double,但是现有的数据是long,string,double类 型,使用toInt进行转换时依然会报错,这是因为long类型转换成int类型已经超出了int的最大值。** 解决思路:* 创建两张映射表,将long类型的字段映射成int类型(使用row_number()添加自增序列),然后拿映射的* 字段进行训练,训练完成后,再将映射的字段转换成原有字段,而后进行推荐。*...原创 2020-06-09 11:48:45 · 1033 阅读 · 0 评论 -
spark DataFrame 基本操作函数
DataFrame 的函数Action 操作1、 collect() ,返回值是一个数组,返回dataframe集合所有的行2、 collectAsList() 返回值是一个Java类型的数组,返回dataframe集合所有的行3、 count() 返回一个number类型的,返回dataframe集合的行数4、 describe(cols: String*) 返回一个通过数学计算的类表值(count, mean, stddev, min, and max),这个可以传多个参数,中间用逗号分隔,如果原创 2020-06-09 11:34:37 · 2939 阅读 · 3 评论 -
xgboost中XGBClassifier()参数
#常规参数booster gbtree 树模型做为基分类器(默认) gbliner 线性模型做为基分类器silent silent=0时,输出中间过程(默认) silent=1时,不输出中间过程nthread nthread=-1时,使用全部CPU进行并行运算(默认) nthread=1时,使用1个CPU进行运算。scale_pos_we...原创 2019-12-24 16:30:33 · 5097 阅读 · 0 评论 -
在Linux Centos7 上使用pyspark Notebook
首先安装anaconda 参考:https://blog.youkuaiyun.com/levy_cui/article/details/80898739https://blog.youkuaiyun.com/levy_cui/article/details/51143153anaconda安装时已经有了jupyter notebook,所以只需要配置好就可以!一、添加root启动权限如果输入 j...原创 2019-12-06 11:47:08 · 551 阅读 · 0 评论 -
PCA降维(主成分分析)处理训练集后,线上正式数据应该如何处理?
训练数据集在使用PCA进行数据降维后,用基本分类器进行训练得到一个分类模型,那线上预测真实数据应该怎么办?应该不能直接放入训练的分类模型中去吧?答:当然不能,要用你从训练数据里面得到的那个降维矩阵对测试数据降维,然后再送给分类器。如何理解?如何操作?参考PCA+SVM的模型的保存及使用训练模型的代码,仔细阅读注释内容import numpy as npimport osim...原创 2019-10-21 20:01:06 · 9429 阅读 · 1 评论 -
GBDT+LR算法进行特征扩增
简介CTR估计也就是广告点击率预估,计算广告训练与平滑思想说明了是用LR算法对于预测的有效性。LR(Logistic Regression)是广义线性模型,与传统线性模型相比,LR通过Logit变换将函数值映射到0~1区间,映射后的函数就是CTR的预估值。LR模型十分适合并行化,因此对于大数据的训练十分有效。但是对于线性模型而言,学习能力是有限的,因此需要大量的特征工程预先分析出有效的特征或者是...原创 2019-10-14 14:44:15 · 853 阅读 · 0 评论 -
轻松理解箱形图
箱形图,也叫盒须图,盒式图,boxplot。有95%的把握猜中你现在已经不太确定,这图中有几条线?每条线代表什么意思?中间的那条线代表的究竟是算数平均数还是中位数,还是众数?再问的深点,箱形图存在的意义为何?之于数据分析的实践意义在哪里?接下来,带你从概念开始,一步步剖析箱形图以及背后的故事。1.什么是箱形图?箱图的发明者John Tukey。Tukey先生1915年出生于美国麻省的新贝德福德。他...原创 2018-04-11 16:41:57 · 13568 阅读 · 2 评论 -
样本类别不平衡问题之SMOTE算法(Python imblearn极简实现)
类别不平衡问题 类别不平衡问题,顾名思义,即数据集中存在某一类样本,其数量远多于或远少于其他类样本,从而导致一些机器学习模型失效的问题。例如逻辑回归即不适合处理类别不平衡问题,例如逻辑回归在欺诈检测问题中,因为绝大多数样本都为正常样本,欺诈样本很少,逻辑回归算法会倾向于把大多数样本判定为正常样本,这样能达到很高的准确率,但是达不到很高的召回率。 类别不平衡问题在很多...转载 2019-01-30 18:17:26 · 11522 阅读 · 7 评论 -
hive函数-数学函数 可在特征工程中使用
hive中数据函数可以直接在提取特征中使用,如 均值、方差、最大值、最小值、协方差等,重点关注以下的聚合函数内容。一、hive函数之数学函数round(double d)--返回double型d的近似值(四舍五入),返回bigint型;round(double d,int n)--返回保留double型d的n位小数double型近似值(四舍五入);floor(double d)--返回&...转载 2018-11-05 15:24:41 · 1372 阅读 · 0 评论 -
python数据相关性分析实践
分析特征之间的相关性,得到哪个两个特征的具有关系,这样对于后期的数据分析可以提供帮助。数据源示例: (每列都是一个特征,每行为一个用户)[10, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 5, 0][4, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 3, 0, 0, 0, 0, 0, 5, 0][3, 0...原创 2018-08-01 14:17:47 · 8263 阅读 · 0 评论 -
Python数据相关性分析
概述在我们的工作中,会有一个这样的场景,有若干数据罗列在我们的面前,这组数据相互之间可能会存在一些联系,可能是此增彼涨,或者是负相关,也可能是没有关联,那么我们就需要一种能把这种关联性定量的工具来对数据进行分析,从而给我们的决策提供支持,本文即介绍如何使用 Python 进行数据相关性分析。关键词 python 方差 协方差 相关系数 离散度 pandas numpy实验数据准备接下来...转载 2018-07-26 18:37:47 · 4560 阅读 · 0 评论 -
kaggle比赛 Dogs vs. Cats 使用Keras(Tensorflow)实践
注意:1、代码是在linux环境实践,tensorflow==1.6.0 keras==1.2.2 参考2、ResNet50,Xception,InceptionV3三个模型中,只有ResNet50可以使用,其他的两个无法下载使用3、比赛地址 https://www.kaggle.com/c/dogs-vs-cats-redux-kernels-edition4、代码参考 https://git...原创 2018-07-06 14:26:07 · 4206 阅读 · 0 评论 -
分类中的训练数据集不均衡问题处理
什么是数据不均衡?在分类中,训练数据不均衡是指不同类别下的样本数目相差巨大。举两个例子:①在一个二分类问题中,训练集中class 1的样本数比上class 2的样本数的比值为60:1。使用逻辑回归进行分类,最后结果是其忽略了class 2,将所有的训练样本都分类为class 1。②在三分类问题中,三个类别分别为A,B,C,训练集中A类的样本占70%,B类的样本占25%,C类的样本占5%转载 2017-11-20 20:08:14 · 6099 阅读 · 0 评论 -
使用keras进行多分类建模
项目地址:https://github.com/imgoodman/tensorflow-in-action/tree/master/iris-multi-classkeras是用于深度学习的python库,它包含了高效的数值库,以Theano或Tensorflow为后端。这里,使用keras开发和评估应用于多分类问题的神经网络模型。经过如下描述,将可以知道: 如何从CSV中加载数据,并对于...转载 2018-07-11 17:08:36 · 15071 阅读 · 0 评论 -
linux+Anaconda+conda创建Keras(tensorflow)虚拟环境
#root用户安装[root@node1 ~]#yum install -y lrzsz[root@node1 ~]#yum install -y bzip2#以下内容可以普通用户安装1、Anaconda安装Anaconda 安装包可以到清华 https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 下载可选择之前的版本。或者https...原创 2018-07-03 15:03:18 · 3553 阅读 · 0 评论 -
特征选择方法
# -*- coding: utf-8 -*-import pandas as pdfrom sklearn.model_selection import train_test_splitimport xgboost as xgbdata=pd.read_csv('D:\\shop\\code\\o2o\\data\\dataset1.csv').drop('user_id',axi...转载 2018-05-21 20:46:50 · 934 阅读 · 0 评论 -
SKlearn数据集转换之预处理数据
数据集转换之预处理数据:将输入的数据转化成机器学习算法可以使用的数据。包含特征提取和标准化。原因:数据集的标准化(服从均值为0方差为1的标准正态分布(高斯分布))是大多数机器学习算法的常见要求。如果原始数据不服从高斯分布,在预测时表现可能不好。在实践中,我们经常进行标准化(z-score 特征减去均值/标准差)。1.1 标准正态分布(均值为0,方差为1) Scale函数的使用 对列进行z-scor...转载 2018-05-21 20:33:21 · 1072 阅读 · 0 评论 -
机器学习:数据归一化方法
理解一:一、为什么要进行数据归一化 原则:样本的所有特征,在特征空间中,对样本的距离产生的影响是同级的; 问题:特征数字化后,由于取值大小不同,造成特征空间中样本点的距离会被个别特征值所主导,而受其它特征的影响比较小; 例:特征1 = [1, 3, 2, 6, 5, 7, 9],特征2 = [1000, 3000, 5000, 2000, 4000, 8000, 300...原创 2019-03-06 15:54:28 · 1380 阅读 · 0 评论 -
分享机器学习入门课件
分享一个最近培训的课件 -- 机器学习入门,很实用原创 2019-03-15 17:46:50 · 2354 阅读 · 2 评论 -
未来金融行业建模趋势:联邦迁移学习
看过这篇文章后,觉得联邦学习是金融行业未来建模趋势,转载在这里,分享给大家人工智能在最近的一两年来是一个炙手可热的词汇。AI在图像分类、语音识别、文本分析、计算机视觉、自然语言处理、自动驾驶等方面,大量的人工智能和机器学习模型确实在让我们的生活变得更加方便快捷。从技术上讲,目前绝大多数的AI,其实都是基于统计学的一些机器学习方法在发挥作用。而机器学习的核心,则是强调让算法能够自动地基于给...转载 2019-03-21 10:19:49 · 4990 阅读 · 0 评论 -
XGBoost:大杀器xgboost指南
原文:http://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-Python/一.xgboost的优点1.正则化xgboost在代价函数里加入了正则项,用于控制模型的复杂度。正则项里包含了树的叶子节点个数、每个叶子节点上输出的score的L2模的平方和。从转载 2017-03-10 11:28:54 · 1408 阅读 · 0 评论 -
自动机器学习之Auto-Keras入门
对于训练深度学习,设计神经网络结构是其中技术含高最高的任务,优秀的网络架构往往依赖建构模型的经验,专业领域知识,以及大量的算力试错。实际应用中往往基于类似功能的神经网络微调生成新的网络结构。Auto-Keras是一个离线使用的开源库,用于构建神经网络结构和搜索超参数,支持RNN,CNN神经网络,它使用了高效神经网络搜索ENAS,利用迁移学习的原理将在前面任务中学到的权值应用于后期的模型中,效率...原创 2019-09-29 17:40:18 · 1127 阅读 · 0 评论 -
Auto Machine Learning 自动化机器学习笔记
适读人群:有机器学习算法基础1. auto-sklearn 能 auto 到什么地步? 在机器学习中的分类模型中: 常规 ML framework 如下图灰色部分:导入数据-数据清洗-特征工程-分类器-输出预测值 auto部分如下图绿色方框:在ML framework 左边新增 meta-learning,在右边新增 build-ensemble,对于...原创 2019-09-27 11:50:36 · 3011 阅读 · 0 评论 -
自动机器学习之auto-sklearn入门
当我们做完了特征工程之后,就可以代入模型训练和预测,对于模型的选择及调参,主要根据分析者的经验。在具体使用时,经常遇到同一批数据,同一种模型,不同的分析者得出的结果相差很多。前面学习了几种常用的机器学习方法原理以及适用场景,对于完全没有经验的开发者,只要有足够时间,尝试足够多的算法和参数组合,理论上也能达到最优的训练结果,同理程序也能实现该功能,并通过算法优化该过程,自动寻找最优的模型解决方案...原创 2019-09-27 10:44:50 · 2136 阅读 · 4 评论 -
机器学习特征工程经验总结一
这块内容分为两篇文章,有一点长,但内容很实用,建议耐心的看一下。机器学习特征工程经验总结一机器学习特征工程经验总结二--------------------------------------------很多人其实非常好奇BAT里机器学习算法工程师平时工作内容是怎样?其实大部分人都是在跑数据,各种map-reduce,hive SQL,数据仓库搬砖,数据清洗、数据清洗、数据清洗,业务分...原创 2019-09-05 14:55:01 · 1777 阅读 · 0 评论 -
特征构建:生成多项式特征
解释下特征构建、特征抽取和特征选择:1、当数据拿到手里后,首先需要从现有数据中挑选或将现有数据进行变形,组合形成新特征,此过程称为特征构建。2、当特征维度比较高,通过映射或变化的方式,用低维空间样本来表示样本,称为特征抽取。3、从一组特征中挑选出一些最有效的特征,以达到降低维度和降低过拟合风险的目的,称为特征选择。机器学习,一些比赛竞赛中,通常会给一定的特征数据进行分类或者回归预测。有...原创 2019-09-05 14:30:13 · 2723 阅读 · 0 评论 -
Keras CNN图像实战
Cifar-10Cifar-10是由Hinton的两个大弟子Alex Krizhevsky、Ilya Sutskever收集的一个用于普适物体识别的数据集。Cifar-10由60000张32*32的RGB彩色图片构成,共10个分类。50000张训练,10000张测试(交叉验证)。这个数据集最大的特点在于将识别迁移到了普适物体,而且应用于多分类(姐妹数据集Cifar-100达到100类,ILSV...原创 2019-08-14 17:28:43 · 721 阅读 · 0 评论 -
keras推荐算法--矩阵分解实战
(实践操作过程中,如果数据量超大,单机会出现内存溢出报错,无法正常运行,建议先用少量进行测试实现)当今这个信息爆炸的社会,每个人都会面对无数的商品,无数的选择。而推荐算法的目的帮助大家解决选择困难症的问题,在大千世界中推荐专属于你的商品。推荐系统算法简介这里简单介绍下推荐系统中最为主要的协同过滤算法,大致分为如下几类:基于用户的协同过滤(给用户推荐与他相似的人购买的物品) 基于商品...原创 2019-08-02 17:13:08 · 2706 阅读 · 7 评论 -
GBDT+LR算法入门理解
CTR估计也就是广告点击率预估,计算广告训练与平滑思想说明了是用LR算法对于预测的有效性。LR(Logistic Regression)是广义线性模型,与传统线性模型相比,LR通过Logit变换将函数值映射到0~1区间,映射后的函数就是CTR的预估值。LR模型十分适合并行化,因此对于大数据的训练十分有效。但是对于线性模型而言,学习能力是有限的,因此需要大量的特征工程预先分析出有效的特征或者是特征组...原创 2019-06-04 14:54:35 · 6266 阅读 · 0 评论 -
Keras模型使用GridSearchCV自动调参
最近使用keras调整参数,使用到自动调参,从网上找到一些资料,主要使用scikit-learn中GridSearchCV进行自动搜索最优参数,很实用分享到这里,帮助需要的朋友。Grid search 是一种最优超参数的选择算法,实际就是暴力搜索。首先设定参数的候选值,然后穷举所有参数组合,根据评分机制,选择最好的那一组设置在scikit-learn中,类GridSearchCV可以为我们实...原创 2019-04-18 15:43:09 · 5847 阅读 · 7 评论