雪龙无敌-优快云博客

原创集成学习01_xgboost参数讲解与实战

xgboost 参数详解，实战案例，最优参数网格搜索

2022-11-06 21:37:29 3375

原创 python评分卡6_Logit例2plot_logistic_path

Python评分卡

2022-05-31 21:20:49 274

原创 python评分卡5_Logit例1_plot_logistic_l1_l2_sparsity

python logistic 例题

2022-05-31 20:49:23 219

原创 03_jupyternotebook_windows设置pyspark

1.配置环境变量pyspark是在anaconda里面安装的，默认前面spark与hadoop，java路径已经配置，这里只需要配置pyspark2．安装findsparkpip install findspark3.调用pyspark创建notebook并findspark在新建的notebook里面运行以下代码。import findsparkfindspark.init('D:\\spark-3.1.3-bin-hadoop3.2')findspark.find()'D

2022-05-30 22:22:04 343

原创 02_jupyterLab_windows设置pyspark

1.什么是JupyterProject Jupyter exists to develop open-source software, open-standards, and services for interactive computing across dozens of programming languages.[Jupyter计划的存在是为了开发开放源码软件，开放标准并且为十几种编程语言提供互动式计算服务。2.JupyterLab环境配置无论是在Windows，WSL还是Linux中配置

2022-05-30 22:16:11 578

原创 pandas_文档02_Intro_to_data_structures之DataFrame

https://pandas.pydata.org/docs/user_guide/index.html#user-guide1.DataFrameDataFrame is a 2-dimensional labeled data structure with columns of potentially different types. You can think of it like a spreadsheet or SQL table, or a dict of Series objects. I

2022-05-29 14:17:09 289

原创凸优化Python实战(5)_一维搜索黄金分割法_笔记

2022-05-29 11:01:01 184

原创凸优化Python实战(4)_ 解非线性规划的基本思路_笔记

2022-05-29 10:54:28 199

原创凸优化Python实战(3)_ 无约束问题的最优化条件_笔记

2022-05-28 23:43:33 180

原创凸优化Python实战(2)_ 非线性规划的数学模型_笔记

2022-05-28 23:39:33 146

原创 python提升算法3_XGBOOST_docs_Scikit-LearnAPI_XGBClassifier参数02

Scikit-Learn API1.fit()fit(X, y, *, sample_weight=None, base_margin=None, eval_set=None, eval_metric=None, early_stopping_rounds=None, verbose=True, xgb_model=None, sample_weight_eval_set=None, base_margin_eval_set=None, feature_weights=None, callbacks=N

2022-05-28 23:30:54 1175

翻译 pandas_文档01_Intro_to_data_structures之Series

https://pandas.pydata.org/docs/user_guide/dsintro.html#dataframeIntro to data structuresWe’ll start with a quick, non-comprehensive overview of the fundamental data structures in pandas to get you started. The fundamental behavior about data types, index

2022-05-26 21:33:01 347

翻译 python_xgboost例03_evals_result评估结果

%matplotlib inline本专栏所有例题数据放在网址[https://download.youkuaiyun.com/download/u012338969/85439555(https://download.youkuaiyun.com/download/u012338969/85439555)This script demonstrate how to access the eval metricsimport osimport xgboost as xgbdtrain = xgb.DMatrix(

2022-05-22 21:22:28 1358

翻译 python_xgboost例02_predict_leaf_indices获得叶子索引

本专栏所有例题数据放在网址[https://download.youkuaiyun.com/download/u012338969/85439555(https://download.youkuaiyun.com/download/u012338969/85439555)%matplotlib inlineDemo for obtaining leaf indeximport osimport xgboost as xgb# load data in do trainingdtrain = xgb.DMatrix

2022-05-22 21:10:38 330

翻译 python_xgboost例01_sklearn_parallel并行

%matplotlib inlineDemo for using xgboost with sklearnfrom sklearn.model_selection import GridSearchCVfrom sklearn.datasets import fetch_california_housingimport xgboost as xgbimport multiprocessingif __name__ == "__main__": print("Parallel Para

2022-05-22 20:43:09 255

原创 python提升算法3_XGBOOST_docs_Scikit-LearnAPI_XGBClassifier_train参数01

1.XGBClassifieScikit-Learn API能一个工具搞定的，就不要太多工具，关于python_api某块，重点翻译学习Scikit-Learn API，主要翻译分类，回归，排序部分，本文重点翻译分类部分、classxgboost.XGBClassifier(*, objective=‘binary:logistic’, use_label_encoder=False, **kwargs)Bases: xgboost.sklearn.XGBModel, sklearn.base.C

2022-05-22 19:16:31 1506

原创 python数据结构与算法笔记02_常用数据结构

1.python语言Python 语言的实现基于一套精心设计的链接结构，各种复杂对象，甚至 Python 程序等，都基于独立的存储块实现，通过链接相互关联。各种数据对象的表示方式，对相关结构上各种操作的效率有着简单性的影响，也间接影响着用 Python 做的程序理解这些结构，可以帮助我们更有效地使用 Python。2.常用数据结构Python 的一些标准数据类型实际上就是非常有用的数据结构：文本序列类型 str序列类型 list 和 tuple集合类型 set 和 frozenset映射类型

2022-05-22 10:20:23 188

原创 python_imbalanced-learn非平衡学习包_02_Over-sampling过采样

Over-sampling1. A practical guideYou can refer to Compare over-sampling samplers实用指南您可以参考比较过采样采样器1.1 Naive random over-samplingOne way to fight this issue is to generate new samples in the classes which are under-represented. The most naive strategy

2022-05-22 10:11:26 1634

原创 python_imbalanced-learn非平衡学习包_01_简介

1.样本不平衡及其危害机器学习中经典假设中往往假定训练样本各类别是同等数量即各类样本数目是均衡的，但是真实场景中遇到的实际问题却常常不符合这个假设。一般来说，不平衡样本会导致训练模型侧重样本数目较多的类别，而“轻视”样本数目较少类别，这样模型在测试数据上的泛化能力就会受到影响。一个例子，训练集中有99个正例样本，1个负例样本。在不考虑样本不平衡的很多情况下，学习算法会使分类器放弃负例预测，因为把所有样本都分为正便可获得高达99%的训练分类准确率。考虑一个简单的例子，假设我们有一个关于医院患者的数据集（里

2022-05-22 10:01:16 1041

原创 01_windows10配置spark与pyspark

最近重新装了系统，需要对spark与pyspark重新配置下。于是写了这篇文章，希望对从事这个行业的人员能有所帮助：1.准备阶段准备以下版本的安装包，不同的版本号之间会发生兼容性问题，如果采用版本以下不一致，建议看完本文再动手，有些本人已经踩过坑，会在下文提示。1.Anaconda3-2021.11-Windows-x86_642.jdk-8u40-windows-x643.hadoop-3.2.2.tar.gz4.scala-2.12.155.spark-3.1.3-bin-hadoop3.

2022-05-15 17:01:07 1238

原创 Python安装包的多种方式

1.pip1.1利用网络安装pip install 库名这种方法不好：第一、包之间的兼容性不会全面考虑，可能安装后，会产生冲突。解决方法：conda install第二、有时候下载速度慢解决方法 pip install 库名 -i 其他镜像网站：华为：https://repo.huaweicloud.com/repository/pypi/simple清华：https://pypi.tuna.tsinghua.edu.cn/simple阿里云：http://mirrors.aliyun.

2022-05-15 13:52:57 2000

原创 python提升算法2_XGBOOST_docs_Python使用英译汉

1 Python Package Introduction由于xgboost使用文档内容较多，时间有限，此文进队文档中的Python Package Introduction(Python软件包简介)介绍给出翻译，文档网址https://xgboost.readthedocs.io/en/stable/python/python_intro.html#install-xgboost[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Yv5vVPOM-1652526423857)

2022-05-14 19:17:00 417

原创 python提升算法1_GBDT到XGBOOST

python提升算法1_GBDT到XGBOOST1 随机森林的启发随机森林构建的子树（决策树）分别采样建立，每个样本的权重值是一样的，属性随机，子树之间相对独立。针对随机森林，我们提取以下问题：1).假定已经训练得到了m-1颗决策树，是否可以通过现有样本和已经构建子树表现的信息，对第m颗子树的构建进行改造呢？2).各个子树组成随机森林后，最后的投票过程每个子树的权重一样，是否可以根据各个子树的表现情况进行调整呢？3).模型训练时，对于容易分类正确的样本与不容易分类正确的样本是否可以调节权重?2.

2022-05-14 19:12:33 404

原创 python评分卡4_logistics原理与解法_sklearn英译汉

logistics_sklearn网址Logistic regressionLogistic regression, despite its name, is a linear model for classification rather than regression. Logistic regression is also known in the literature as logit regression, maximum-entropy classification (MaxEnt) or

2022-05-14 10:44:13 386

原创 hive注意事项02_数据倾斜

hive注意事项02_数据倾斜在海量数据查询中，数据倾斜是一个很常见的场景。普通的查询，运行了几个小时也没有结果，其原因往往是发生了数据倾斜。对数据倾斜采取相应的解决方法，将会大大提高效率。1.数据倾斜任务进度长时间维持在95%以上，查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。因为这几个reduce处理的数据量比其他大非常多，通常可能达到数倍。耗时远远超过平均时长。1.1关联大小表情况：这种情况下，大表中大量的key因为找不到小表中的匹配而分发不均匀。如果users表

2022-05-13 22:57:27 221

原创 hive注意事项01_空值处理

1. 空值类型1.1NULLhive中null实际在HDFS中默认存储为’\N’，通过查询显示的是’NULL’。这时如果查询为空值的字段可通过语句：col is null 或者 col =’\N’ 实现。此时可用hive中与null有关的函数,如nvl,coalesce,is null等判断是否为null是为true。产生NULL值，一般都是由hive外链接引起的。1.2 ‘’‘’ 表示的是字段不为null且为空字符串，此时用 col is null 是无法查询这种值的，必须通过 aaa =='‘或

2022-05-13 21:46:02 3837

原创数据在Pandas，pyspark与hive中的相互转换

1. 从 PySpark DataFrame 创建 Pandas在 Spark 上完成转换后，您可以使用toPandas()方法轻松地将其转换回 Pandas 。#Convert PySpark to PandaspandasDF = pysparkDF.toPandas()注意： toPandas()方法是将数据收集到 Spark Driver 内存中的操作，因此在处理大型数据集时必须非常小心。如果收集的数据不适合 Spark Driver 内存，您将收到 OutOfMemoryExceptio

2022-05-13 21:09:52 1387

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

配套专栏python机器学习中python_提升算法_例题中的所有数据

文章《windows10配置spark与pyspark》安装包02

文章《windows10配置spark与pyspark》安装包01

配套数据，用于配套代码Python评分卡3，代码实现

知识图谱（知识库构建）

讲解机器学习中数据的视频和课件

python爬虫系统化

python数据结构与算法

机器学习算法，应用，实战

自然语言处理python

机器学习升级4视频+课件+代码

空空如也