- 博客(14)
- 收藏
- 关注
原创 机器学习task2
一、XGBoost 1.1 XGBoost介绍 XGBoost是2016年由华盛顿大学陈天奇老师带领开发的一个可扩展机器学习系统。严格意义上讲XGBoost并不是一种模型,而是一个可供用户轻松解决分类、回归或排序问题的软件包。 它内部实现了梯度提升树(GBDT)模型,并对模型中的算法进行了诸多优化,在取得高精度的同时又保持了极快的速度,在一段时间内成为了国内外数据挖掘、机器学习领域中的大规模杀伤性武器。 更重要的是,XGBoost在系统优化和机器学习原理方面都进行了深入的考虑。毫不夸张的讲,XGBoost
2022-04-30 22:00:05
374
原创 机器学习task1
一 逻辑回归 原理简介: Logistic回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题(即输出只有两种,分别代表两个类别) 二 程序函数 from sklearn.linear_model import LogisticRegression # 导入 1 lr_clf = LogisticRegression() # 调用-----逻辑回归模型 1 #用逻辑回归模型----拟合----构造的数据集,x_fearures为输入特征,y_label为预测的类别。 其-...
2022-04-30 21:57:38
180
原创 阿里天池Python训练营task4
列表 定义 类别,list,语法为 [元素1, 元素2, ..., 元素n] 有序集合 没有固定大小 能够保存任意数量任意类型python对象 创建方法 普通列表 range() 创建列表 推导式创建列表 混合列表 空列表 添加元素 append 方法 list.append 在列表末尾添加新的对象,只接受一个参数,参数可以是任何数据类型,被追加的元素在 list 中保持着原结构类型 extend 方法 list.extend(seq) 在列表末尾一次性追加另一个序列中的多个值(用新..
2022-04-30 21:22:59
245
原创 阿里天池Python训练营task3
函数 函数参数 位置参数:arg1,这些参数在调用函数 (call function) 时位置要固定。 默认参数:arg2,调用函数时,默认参数的值如果没有传入,则被认为是默认值。默认参数一定要放在位置参数 后面,不然程序会报错。 可变参数:*args,可以是从零个到任意个,自动组装成元组。加了星号(*)的变量名会存放所有未命名的变量参数。 命名关键字参数:*, nkw,限制关键字参数的名字时使用。要特别注意调用时不能缺少参数名。 关键字参数:**kwargs,可以是从零个到任意个,自动组装成字
2022-04-30 21:20:39
157
原创 阿里天池Python训练营task2
列表 简单数据类型 整型<class 'int'> 浮点型<class 'float'> 布尔型<class 'bool'> 容器数据类型 列表<class 'list'> 元组<class 'tuple'> 字典<class 'dict'> 集合<class 'set'> 字符串<class 'str'> 列表是有序集合,没有固定大小,能够保存任意数量任意类型的 Python 对象,语法为 [元素1, 元素
2022-04-30 21:17:51
136
原创 阿里天池-Python训练营task1
一、数据类型 1.数据类型与转换 保留浮点型小数点后n位,可以用decimal包里的Decimal对象和getcontext()方法实现,默认精度值是28位(prec=28) import decimal from decimal import Decimal #默认是28位 a=decimal.getcontext() print(a) #Context(prec=28, rounding=ROUND_HALF_EVEN, Emin=-999999, Emax=999999, capitals=1,.
2022-04-30 21:14:13
197
原创 阿里云天池机器学习训练营任务四
通过设置 bagging_fraction 和 bagging_freq 参数来使用 bagging 方法。 通过设置 feature_fraction 参数来使用特征的子抽样。 选择较小的 max_bin 参数。 使用 save_binary 在未来的学习过程对数据加载进行加速。 2.4.1.3 针对准确率的参数调整 使用较大的 max_bin (学习速度可能变慢) 使用较小的 learning_rate 和较大的 num_iterations 使用较大的 num_leaves (可能导致过
2022-03-31 09:45:10
178
原创 阿里云天池机器学习训练营任务三
LightGBM是2017年由微软推出的可扩展机器学习系统,是微软旗下DMKT的一个开源项目,由2014年首届阿里巴巴大数据竞赛获胜者之一柯国霖老师带领开发。它是一款基于GBDT(梯度提升决策树)算法的分布式梯度提升框架,为了满足缩短模型计算时间的需求,LightGBM的设计思路主要集中在减小数据对内存与计算性能的使用,以及减少多机器并行计算时的通讯代价。 LightGBM可以看作是XGBoost的升级豪华版,在获得与XGBoost近似精度的同时,又提供了更快的训练速度与更少的内存消耗。正如其名字中的Li
2022-03-31 09:43:42
85
原创 阿里云天池机器学习训练营任务二
XGBoost是2016年由华盛顿大学陈天奇老师带领开发的一个可扩展机器学习系统。严格意义上讲XGBoost并不是一种模型,而是一个可供用户轻松解决分类、回归或排序问题的软件包。它内部实现了梯度提升树(GBDT)模型,并对模型中的算法进行了诸多优化,在取得高精度的同时又保持了极快的速度,在一段时间内成为了国内外数据挖掘、机器学习领域中的大规模杀伤性武器。 更重要的是,XGBoost在系统优化和机器学习原理方面都进行了深入的考虑。毫不夸张的讲,XGBoost提供的可扩展性,可移植性与准确性推动了机器学习计算
2022-03-31 09:42:12
79
原创 阿里云天池机器学习训练营任务一
机器学习算法(一): 基于逻辑回归的分类预测 1 逻辑回归的介绍和应用 1.1 逻辑回归的介绍 逻辑回归(Logistic regression,简称LR)虽然其中带有"回归"两个字,但逻辑回归其实是一个分类模型,并且广泛应用于各个领域之中。虽然现在深度学习相对于这些传统方法更为火热,但实则这些传统方法由于其独特的优势依然广泛应用于各个领域中。 而对于逻辑回归而且,最为突出的两点就是其模型简单和模型的可解释性强。 逻辑回归模型的优劣势: 优点:实现简单,易于理解和实现;计算代价不高,速度很快,存
2022-03-31 09:40:17
74
原创 阿里云天池Python训练营任务四
训练和验证集的划分 划分训练和验证集的原因是为了在线下验证模型参数的好坏,为了完全模拟测试集,我们这里就在训练集中抽取部分用户的所有信息来作为验证集。提前做训练验证集划分的好处就是可以分解制作排序特征时的压力,一次性做整个数据集的排序特征可能时间会比较长。 1 # all_click_df指的是训练集 2 # sample_user_nums 采样作为验证集的用户数量 3 def trn_val_split(all_click_df, sample_user_nums): 4
2022-03-31 09:34:54
73
原创 阿里云天池Python训练营任务三
Python入门(下) 简介 函数1. 函数的定义2. 函数的调用3. 函数文档4. 函数参数5. 函数的返回值6. 变量作用域 Lambda-表达式1. 匿名函数的定义2. 匿名函数的应用 类与对象1. 属性和方法组成对象2. self是什么?3. Python的魔法方法4. 公有和私有5. 继承6. 组合7. 类、类对象和实例对象8. 什么是绑定?9. 一些相关的内置函数(BIF) 魔法方法1. 基本的魔法方法2. 算术运算符3. 反算术运算符4. 增量赋值
2022-03-31 09:32:44
76
原创 阿里云天池Python训练营任务二
Python入门(中) 简介 列表1. 列表的定义2. 列表的创建3. 向列表中添加元素4. 删除列表中的元素5. 获取列表中的元素6. 列表的常用操作符7. 列表的其它方法 元组1. 创建和访问一个元组2. 更新和删除一个元组3. 元组相关的操作符4. 内置方法5. 解压元组 字符串1. 字符串的定义2. 字符串的切片与拼接3. 字符串的常用内置方法4. 字符串格式化 字典1. 可变类型与不可变类型2. 字典的定义3. 创建和访问字典4. 字典的内置方法
2022-03-31 09:29:53
212
原创 阿里云天池Python训练营任务一
【例子】单行注释 1 # 这是一个注释 2 print("Hello world") 3 4 # Hello world Hello world ''' ''' 或者 """ """ 表示区间注释,在三引号之间的所有内容被注释 【例子】多行注释 1 ''' 2 这是多行注释,用三个单引号 3 这是多行注释,用三个单引号 4 这是多行注释,用三个单引号 5 ''' 6 print("Hello china") 7 # Hello china 8 9.
2022-03-31 09:24:59
101
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人