- 博客(39)
- 收藏
- 关注
原创 基础算法-Xgboost
0 前言xgboost一直在竞赛江湖里被传为神器,比如时不时某个kaggle/天池比赛中,某人用xgboost于千军万马中斩获冠军。而我们的机器学习课程里也必讲xgboost,如寒所说:“RF和GBDT是工业界大爱的模型,Xgboost 是大杀器包裹,Kaggle各种Top排行榜曾一度呈现Xgboost一统江湖的局面,另外某次滴滴比赛第一名的改进也少不了Xgboost的功劳”。此外,公司七月在线从2016年上半年起,就开始组织学员参加各种比赛,以在实际竞赛项目中成长(毕竟,搞AI不可能没实战,而参
2021-10-25 15:05:47
1836
原创 机器学习-7.0模型集成
3、stacking和blending集成:blending较stacking的主要区别在于,blending选取特定比例的数据作为验证集(比如5%,20%等等),其余作为训练集,stacking使用交叉验证,分别将不同的部分数据作为验证集和训练集,这意味着:(1)blending每次只训练一个模型,而stacking训练模型数和交叉验证折数相关;(2)blending训练时训练集和验证集是确定不变的,stacking则是通过交叉验证使得所有数据都做过验证集。...
2021-10-20 16:11:16
151
原创 数据分析(四)- Sklearn数据包
sklearn是基于numpy和scipy的一个机器学习算法库,设计的非常优雅,它让我们能够使用同样的接口来实现所有不同的算法调用。支持包括分类、回归、降维和聚类四大机器学习算法。还包含了特征提取、数据处理和模型评估三大模块。同时sklearn内置了大量数据集,节省了获取和整理数据集的时间。使用sklearn进行机器学习的步骤一般分为:导入模块-创建数据-建立模型-训练-预测五步。官方文档:scikit-learn: machine learning in Python — scikit-l
2021-10-20 15:44:19
558
原创 数据分析(三)- Matplotlib数据包
Matplotlib是Python的一个可视化模块,他能方便的制作线条图、饼图、柱状图以及其他专业图形,并且支持所有操作系统下不同的GUI后端。Matplotlib有一套允许定制各种属性的默认设置,可以控制Matplotlib中的每一个默认属性:图像大小、每英寸点数、线宽、色彩和样式、子图、坐标轴、网个属性、文字和文字属性。官方文档:https://matplotlib.org/users/pyplot_tutorial.html以下是代码笔记#导入matplotlib包import
2021-10-20 15:42:19
159
原创 数据分析(二)- Pandas数据包
Pandas是基于NumPy的另一个python数据分析库,提供了一套名为DataFrame的数据结构,实现高性能数据操作和分析。Pandas的主要特点: 快速高效的DataFrame对象,具有默认和自定义的索引; 将数据从不同文件格式加载到内存中的数据对象的工具; 丢失数据的数据对齐和综合处理; 重组和摆动日期集; 基于标签的切片,索引和大数据集的子集; 可以删除或插入来自数据结构的列; 按数据分组进行聚合和转换; 高性能合并和数据加入; 时间
2021-10-20 15:38:41
284
原创 数据分析(一)- Numpy数据包
NumPy 是一个 Python 包。 它代表 “Numeric Python”。 它是一个由多维数组对象和用于处理数组的例程集合组成的库。Numpy中最重要的对象是称为ndarray的N维数组类型NumPy可以执行以下操作:数组的算数和逻辑运算。傅立叶变换和用于图形操作的例程。与线性代数有关的操作。 NumPy 拥有线性代数和随机数生成的内置函数。Numpy不提供高级数据分析功能,但可以更加深刻的理解Numpy数组和面向数组的计算。详细教程:NumPy教程™官方文档:N
2021-10-20 15:32:48
209
原创 机器学习-4.0特征选择
当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征: ·特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。 ·特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除方差法外,本文介绍的其他方法均从相关性考虑。特征选择主要包括:Filter Method 过滤法, Wrapper Method 包装法和Embedded Method ..
2021-10-20 11:07:31
244
原创 基础算法-KNN邻近取样
一、算法简介1.1 基本概念k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。基本概念如下:存在一个样本数据集合,所有特征属性已知,并且样本集中每个对象都已知所属分类。对不知道分类的待测对象,将待测对象的每个特征属性与样本集中数据对应的特征属性进行比较,然后算法提取样本最相似对象(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的对象数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最后
2021-10-19 19:05:38
636
原创 基础算法-逻辑回归
一、算法简介1.1 定义逻辑回归(Logistic Regression) 虽然名字中有回归,但模型最初是为了解决二分类问题。线性回归模型帮助我们用最简单的线性方程实现了对数据的拟合,但只实现了回归而无法进行分类。因此LR就是在线性回归的基础上,构造的一种分类模型。对线性模型进行分类如二分类任务,简单的是通过阶跃函数(unit-step function),即将线性模型的输出值套上一个函数进行分割,大于z的判定为0,小于z的判定为1。如下图左所示但这样的分段函数数学性质不好,既不
2021-10-19 17:04:49
405
原创 机器学习-简介
转自 飞鸟各投林 史上最强----机器学习经典总结---入门必读----心血总结-----回味无穷 让我们从机器学习谈起 导读:在本篇文章中,将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。当然,本文也面对一般读者,不会对阅读有相关的前提要求。 在进入正题前...
2021-10-19 10:25:21
781
原创 基础知识-开发常用语法函数
1. 常用语法1.1 一列分解成多列pd.str.split(',',expand=True);pd.str.split(',',expand=True)[0];1.2 替换某一列中的值data['CarBrand'] = data['CarBrand'].replace({'Nissan': 'nissan', 'maxda': 'mazda'})可以添加多个1.3 删除某一列数据data_train = data.drop(['car_ID', 'CarName'], ax
2021-08-14 07:10:53
403
原创 天池案例-贷款违约预测(lgb)
1 案例描述赛题以预测用户贷款是否违约为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。提交结果为每个测试样本是1的概率,也就是y为1的概率。评价方法为AUC评估模型效果(越大越好)。2 代码详情im...
2021-07-14 16:19:21
1820
原创 天池案例-二手车交易价格预测-回归(xgb+lgb)
1 案例描述赛题以预测二手车的交易价格为任务,评测标准:评价标准为MAE(Mean Absolute Error)。2 代码详情# 基础工具import numpy as npimport pandas as pdimport warningsimport matplotlibimport matplotlib.pyplot as pltimport seaborn as snsfrom scipy.special import jnfrom IPython.display i
2021-07-14 11:18:52
2542
原创 天池案例-Nlp新闻文本分类
1 案例描述1.1 描述 赛题以新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。1.2 评测标准评价标准为类别f1_score的均值,选手提交结果与实际测试集的类别进行对比,结果越大越好。计算公式:2 代码详情import numpy as npimport pandas as pdfrom...
2021-07-14 10:11:33
498
1
原创 天池案例-汽车产品聚类分析
1 案例描述 说明:赛题以竞品分析为背景,通过数据的聚类,为汽车提供聚类分类。对于指定的车型,可以通过聚类分析找到其竞品车型。通过这道赛题,鼓励学习者利用车型数据,进行车型画像的分析,为产品的定位,竞品分析提供数据决策。任务:选手需要对该汽车数据进行聚类分析,并找到vokswagen汽车的相应竞品。要求选手在天池实验室中用notebook完成以上任务,并分享到比赛论坛。(聚类分析是常用的数据分析方法之一,不仅可以帮助我们对用户进行分组,还可以帮我们对产品进行分组(比如...
2021-07-13 10:40:18
3057
原创 天池案例-产品关联分析
1 案例描述赛题以购物篮分析为背景,要求选手对品牌的历史订单数据,挖掘频繁项集与关联规则。通过这道赛题,鼓励学习者利用订单数据,为企业提供销售策略,产品关联组合,为企业提升销量的同时,也为消费者提供更适合的商品推荐。说明:1)频繁项集、关联规则的计算会用到支持度、置信度、提升度等指标,2)频繁项集:即大于最小支持度的商品或商品组合3)关联规则:在频繁项集中,满足最小置信度,或最小提升度的推荐规则2 代码详情# %load 赛题2.pyimport pandas a...
2021-07-12 16:20:53
1793
1
原创 天池案例-用户情感可视化分析
1 案例描述1.1 案例说明赛题以网络舆情分析为背景,要求选手根据用户的评论来对品牌的议题进行数据分析与可视化。通过这道赛题来引导常用的数据可视化图表,以及数据分析方法,对感兴趣的内容进行探索性数据分析。1.2 字段描述1.3 效果展示[('听', 3886), ('耳机', 3576), ('好', 3318), ('可以', 2614), ('声音', 2486), ('用', 2322),...等等]词云图展示2 代码详情import ...
2021-07-12 15:15:16
1407
原创 数据结构与算法分析
数据结构指的是“一组数据的存储结构”,算法指的是“操作数据的一组方法”。数据结构是为算法服务的,算法是要作用再特定的数据结构上的。最常用的数据结构预算法:数据结构:数组、链表、栈、队列、散列表、二叉树、堆、跳表、图、Tire树算法: 递归、排序、二分查找、搜索、哈希算法、贪心算法、分治算法、回溯算法、动态规划、字符串匹配算法...
2021-06-21 10:43:56
2781
1
原创 机器学习-数学概览
1.线性代数2.解析几何3.矩阵分解4.向量微积分5.概率与分布6.连续优化由于机器学习算法是在计算机上实现的,其中许多数学方程式都表示为数值优化方法。本章描述了训练机器学习模型的基本数值方法。训练机器学习模型通常归结为找到一组好的参数。“好”的概念是由目标函数或概率模型来决定的,我们将在本书的第二部分看到这些例子。给定一个目标函数,使用优化算法来寻找最佳值。(由于我们是在 中考虑数据和模型,所以我们面临的优化问题是连续优化问题,而不是离散变量的组合优化问
2021-06-15 08:35:00
286
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人