- 博客(46)
- 资源 (12)
- 收藏
- 关注
原创 03_jupyternotebook_windows设置pyspark
1.配置环境变量pyspark是在anaconda里面安装的,默认前面spark与hadoop,java路径已经配置,这里只需要配置pyspark2.安装findsparkpip install findspark3.调用pyspark创建notebook并findspark在新建的notebook里面运行以下代码。import findsparkfindspark.init('D:\\spark-3.1.3-bin-hadoop3.2')findspark.find()'D
2022-05-30 22:22:04
343
原创 02_jupyterLab_windows设置pyspark
1.什么是JupyterProject Jupyter exists to develop open-source software, open-standards, and services for interactive computing across dozens of programming languages.[Jupyter计划的存在是为了开发开放源码软件,开放标准并且为十几种编程语言提供互动式计算服务。2.JupyterLab环境配置无论是在Windows,WSL还是Linux中配置
2022-05-30 22:16:11
578
原创 pandas_文档02_Intro_to_data_structures之DataFrame
https://pandas.pydata.org/docs/user_guide/index.html#user-guide1.DataFrameDataFrame is a 2-dimensional labeled data structure with columns of potentially different types. You can think of it like a spreadsheet or SQL table, or a dict of Series objects. I
2022-05-29 14:17:09
289
原创 python提升算法3_XGBOOST_docs_Scikit-LearnAPI_XGBClassifier参数02
Scikit-Learn API1.fit()fit(X, y, *, sample_weight=None, base_margin=None, eval_set=None, eval_metric=None, early_stopping_rounds=None, verbose=True, xgb_model=None, sample_weight_eval_set=None, base_margin_eval_set=None, feature_weights=None, callbacks=N
2022-05-28 23:30:54
1175
翻译 pandas_文档01_Intro_to_data_structures之Series
https://pandas.pydata.org/docs/user_guide/dsintro.html#dataframeIntro to data structuresWe’ll start with a quick, non-comprehensive overview of the fundamental data structures in pandas to get you started. The fundamental behavior about data types, index
2022-05-26 21:33:01
347
翻译 python_xgboost例03_evals_result评估结果
%matplotlib inline本专栏所有例题数据放在 网址[https://download.youkuaiyun.com/download/u012338969/85439555(https://download.youkuaiyun.com/download/u012338969/85439555)This script demonstrate how to access the eval metricsimport osimport xgboost as xgbdtrain = xgb.DMatrix(
2022-05-22 21:22:28
1358
翻译 python_xgboost例02_predict_leaf_indices获得叶子索引
本专栏所有例题数据放在 网址[https://download.youkuaiyun.com/download/u012338969/85439555(https://download.youkuaiyun.com/download/u012338969/85439555)%matplotlib inlineDemo for obtaining leaf indeximport osimport xgboost as xgb# load data in do trainingdtrain = xgb.DMatrix
2022-05-22 21:10:38
330
翻译 python_xgboost例01_sklearn_parallel并行
%matplotlib inlineDemo for using xgboost with sklearnfrom sklearn.model_selection import GridSearchCVfrom sklearn.datasets import fetch_california_housingimport xgboost as xgbimport multiprocessingif __name__ == "__main__": print("Parallel Para
2022-05-22 20:43:09
255
原创 python提升算法3_XGBOOST_docs_Scikit-LearnAPI_XGBClassifier_train参数01
1.XGBClassifieScikit-Learn API能一个工具搞定的,就不要太多工具,关于python_api某块,重点翻译学习Scikit-Learn API,主要翻译分类,回归,排序部分,本文重点翻译分类部分、classxgboost.XGBClassifier(*, objective=‘binary:logistic’, use_label_encoder=False, **kwargs)Bases: xgboost.sklearn.XGBModel, sklearn.base.C
2022-05-22 19:16:31
1506
原创 python数据结构与算法笔记02_常用数据结构
1.python语言Python 语言的实现基于一套精心设计的链接结构,各种复杂对象,甚至 Python 程序等,都基于独立的存储块实现,通过链接相互关联。各种数据对象的表示方式,对相关结构上各种操作的效率有着简单性的影响,也间接影响着用 Python 做的程序理解这些结构,可以帮助我们更有效地使用 Python。2.常用数据结构Python 的一些标准数据类型实际上就是非常有用的数据结构:文本序列类型 str序列类型 list 和 tuple集合类型 set 和 frozenset映射类型
2022-05-22 10:20:23
188
原创 python_imbalanced-learn非平衡学习包_02_Over-sampling过采样
Over-sampling1. A practical guideYou can refer to Compare over-sampling samplers实用指南您可以参考比较过采样采样器1.1 Naive random over-samplingOne way to fight this issue is to generate new samples in the classes which are under-represented. The most naive strategy
2022-05-22 10:11:26
1634
原创 python_imbalanced-learn非平衡学习包_01_简介
1.样本不平衡及其危害机器学习中经典假设中往往假定训练样本各类别是同等数量即各类样本数目是均衡的,但是真实场景中遇到的实际问题却常常不符合这个假设。一般来说,不平衡样本会导致训练模型侧重样本数目较多的类别,而“轻视”样本数目较少类别,这样模型在测试数据上的泛化能力就会受到影响。一个例子,训练集中有99个正例样本,1个负例样本。在不考虑样本不平衡的很多情况下,学习算法会使分类器放弃负例预测,因为把所有样本都分为正便可获得高达99%的训练分类准确率。考虑一个简单的例子,假设我们有一个关于医院患者的数据集(里
2022-05-22 10:01:16
1041
原创 01_windows10配置spark与pyspark
最近重新装了系统,需要对spark与pyspark重新配置下。于是写了这篇文章,希望对从事这个行业的人员能有所帮助:1.准备阶段准备以下版本的安装包,不同的版本号之间会发生兼容性问题,如果采用版本以下不一致,建议看完本文再动手,有些本人已经踩过坑,会在下文提示。1.Anaconda3-2021.11-Windows-x86_642.jdk-8u40-windows-x643.hadoop-3.2.2.tar.gz4.scala-2.12.155.spark-3.1.3-bin-hadoop3.
2022-05-15 17:01:07
1238
原创 Python安装包的多种方式
1.pip1.1利用网络安装pip install 库名这种方法不好:第一、包之间的兼容性不会全面考虑,可能安装后,会产生冲突。解决方法:conda install第二、有时候下载速度慢解决方法 pip install 库名 -i 其他镜像网站:华为:https://repo.huaweicloud.com/repository/pypi/simple清华:https://pypi.tuna.tsinghua.edu.cn/simple阿里云:http://mirrors.aliyun.
2022-05-15 13:52:57
2000
原创 python提升算法2_XGBOOST_docs_Python使用英译汉
1 Python Package Introduction由于xgboost使用文档内容较多,时间有限,此文进队文档中的Python Package Introduction(Python软件包简介)介绍给出翻译,文档网址https://xgboost.readthedocs.io/en/stable/python/python_intro.html#install-xgboost[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Yv5vVPOM-1652526423857)
2022-05-14 19:17:00
417
原创 python提升算法1_GBDT到XGBOOST
python提升算法1_GBDT到XGBOOST1 随机森林的启发随机森林构建的子树(决策树)分别采样建立,每个样本的权重值是一样的,属性随机,子树之间相对独立。针对随机森林,我们提取以下问题:1).假定已经训练得到了m-1颗决策树,是否可以通过现有样本和已经构建子树表现的信息,对第m颗子树的构建进行改造呢?2).各个子树组成随机森林后,最后的投票过程每个子树的权重一样,是否可以根据各个子树的表现情况进行调整呢?3).模型训练时,对于容易分类正确的样本与不容易分类正确的样本是否可以调节权重?2.
2022-05-14 19:12:33
404
原创 python评分卡4_logistics原理与解法_sklearn英译汉
logistics_sklearn网址Logistic regressionLogistic regression, despite its name, is a linear model for classification rather than regression. Logistic regression is also known in the literature as logit regression, maximum-entropy classification (MaxEnt) or
2022-05-14 10:44:13
386
原创 hive注意事项02_数据倾斜
hive注意事项02_数据倾斜在海量数据查询中,数据倾斜是一个很常见的场景。普通的查询,运行了几个小时也没有结果,其原因往往是发生了数据倾斜。对数据倾斜采取相应的解决方法,将会大大提高效率。1.数据倾斜任务进度长时间维持在95%以上,查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为这几个reduce处理的数据量比其他大非常多,通常可能达到数倍。 耗时远远超过平均时长。1.1关联大小表情况:这种情况下,大表中大量的key因为找不到小表中的匹配而分发不均匀。如果users表
2022-05-13 22:57:27
221
原创 hive注意事项01_空值处理
1. 空值类型1.1NULLhive中null实际在HDFS中默认存储为’\N’,通过查询显示的是’NULL’。这时如果查询为空值的字段可通过语句:col is null 或者 col =’\N’ 实现。此时可用hive中与null有关的函数,如nvl,coalesce,is null等判断是否为null是为true。产生NULL值,一般都是由hive外链接引起的。1.2 ‘’‘’ 表示的是字段不为null且为空字符串,此时用 col is null 是无法查询这种值的,必须通过 aaa =='‘或
2022-05-13 21:46:02
3837
原创 数据在Pandas,pyspark与hive中的相互转换
1. 从 PySpark DataFrame 创建 Pandas在 Spark 上完成转换后,您可以使用toPandas()方法轻松地将其转换回 Pandas 。#Convert PySpark to PandaspandasDF = pysparkDF.toPandas()注意: toPandas()方法是将数据收集到 Spark Driver 内存中的操作,因此在处理大型数据集时必须非常小心。如果收集的数据不适合 Spark Driver 内存,您将收到 OutOfMemoryExceptio
2022-05-13 21:09:52
1387
原创 凸优化Python实战(8)_牛顿法
1.原理推导1.1 牛顿法的基本原理1.2 牛顿方向1.3牛顿法的基本步骤2.牛顿法例题3.修正牛顿法3.1牛顿法的变形3.2修正牛顿法的基本步骤4.修正牛顿法例题5.代码实现代码可以在 https://github.com/HarmoniaLeo/optimization-in-a-nutshell找到,如果帮助到你,请点个star,谢谢这对博主真的很重要!本次引用Function.py和lagb.py也可以在最优化(1)_ 最优化问题概念与基本知识 找到imp
2022-05-12 22:56:46
527
原创 凸优化Python实战(7)_最速下降法
1.原理推导1.1最速下降法的基本原理1.2最速下降法的算法步骤1.3最速下降法的最优步长2.计算案例:3.总结4.代码实现代码可以在 https://github.com/HarmoniaLeo/optimization-in-a-nutshell找到,如果帮助到你,请点个star,谢谢这对博主真的很重要!本次引用Function.py和lagb.py也可以在最优化(1)_ 最优化问题概念与基本知识 找到import numpy as npfrom Function
2022-05-12 22:37:07
490
1
转载 凸优化Python实战(1)_ 最优化问题概念与基本知识
1 最优化问题1.1 什么是最优化问题1.2 名词与符号1.3 最优解条件2 用计算机求解问题2.1 迭代搜索2.2 质量评估3 最小二乘问题——无约束最优化问题实例点列的曲线拟合是我们高中开始就接触过的问题。为了寻找一个待定系数的函数,可以以最小的误差去描述点列,我们需要用到最小二乘法。有关最小二乘法可以参阅:https://www.zhihu.com/question/37031188最小二乘法是我们研究无约束最优化问题的一个出色的实例。它具有广泛的应用价值,而且目标函数的
2022-05-12 21:56:16
753
原创 python评分卡3_woe与IV分箱实现
本系列分以下章节:python评分卡1_woe与IV值python评分卡2_woe与IV分箱方法python评分卡3_woe与IV分箱实现python评分卡4_logistics回归模型原理python评分卡5_logistics回归模型实现python评分卡6_刻度与logistics模型1.Python第三方库打开网址:https://pypi.org 在搜寻框中输入 woe,如下图所示:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pTuAGG0s-
2022-05-08 22:19:26
4195
1
原创 python评分卡2_woe与IV分箱方法
本系列分以下章节:python评分卡1_woe与IV值python评分卡2_woe与IV分箱方法python评分卡3_woe与IV分箱实现python评分卡4_logistics回归模型原理python评分卡5_logistics回归模型实现python评分卡6_刻度与logistics模型1.数据分箱含义:对连续变量离散化;实际上就是按照属性值划分的子区间,可以简单理解为分段处理(不同的是对特征进行分箱后,需要对分箱后的每组woe编码进行评估,才能放进模型训练);意义:1.模型更稳定
2022-05-08 18:02:33
4081
原创 python评分卡1_woe与IV值
本系列分以下章节:python评分卡1_woe与IV值python评分卡2_woe与IV分箱方法python评分卡3_woe与IV分箱方法应用python评分卡4_logistics回归模型原理python评分卡5_logistics回归模型实现python评分卡6_刻度与logistics模型1.变量的预测能力我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些
2022-05-08 13:32:52
1564
原创 pandas10minnutes_中英对照04
10 minutes to pandas英文网址pandas10minnutes_中英对照01pandas10minnutes_中英对照02pandas10minnutes_中英对照03pandas10minnutes_中英对照04 本次主要讲以下部分:11.Plotting 绘图11.Plotting 绘图See the Plotting docs.We use the standard convention for referencing the matplotlib API:参见绘
2022-05-07 19:23:52
399
配套数据,用于配套代码Python评分卡3,代码实现
2022-05-08
讲解机器学习中数据的视频和课件
2018-08-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人