- 博客(61)
- 资源 (6)
- 收藏
- 关注
原创 大数据——Spark Streaming
Spark Streaming是一个可扩展、高吞吐、具有容错性的流式计算框架。之前我们接触的spark-core和spark-sql都是离线批处理任务,每天定时处理数据,对于数据的实时性要求不高,一般都是T+1的。但在企业任务中存在很多的实时性的任务需求,列如双十一的京东阿里都会要求做一个实时的数据大屏,显示实时订单。实时计算框架对比。
2023-10-08 15:55:14
1918
原创 大数据——Spark SQL
Spark中DataFrame是⼀个分布式的⾏集合,可以想象为⼀个关系型数据库的表,或者⼀个带有列名的Excel表格。不可变(Immuatable):跟RDD一样,一旦创建就不能更改你,只能通过transformation生成新的DataFrame;懒加载(Lazy Evaluations):只有action才会让transformation执行;分布式(Distributed):也是分布式的。
2023-09-22 10:28:57
1121
1
原创 Pycharm通过SSH配置centos上Spark环境
直接在shell进行pyspark进行编程,程序没有办法写得太长,而且我们希望能够实现一个及时给出结果的编程环境,可以使用pycharm连接centos上的spark,进行本地编程,同步到centos系统中运行程序,并把结果返回pycharm上。指定Python解释器的位置。
2023-08-25 13:40:17
1097
原创 大数据——spark一文全知道
spark是专为大规模数据处理而设计的快速通用计算引擎,与Hadoop的MapReduce功能类似,但它是基于内存的分布式计算框架,存储还是采用HDFS。
2023-08-25 11:27:40
1188
原创 大数据——一文熟悉HBase
HBase是基于HDFS的数据存储,它建立在HDFS文件系统上面,利用了HDFS的容错能力,内部还有哈希表并利用索引,可以快速对HDFS上的数据进行随时读写功能。Hadoop在已经有一个Hive+MapReduce结构的数据读写功能,为什么还要HBase呢?我们在使用Hive的过程中也发现,MapReduce的过程很慢,不适合实时的读写访问,更多的时候是进行线下的访问。但在实际应用过程中,我们需要对大数据进行实时的读写,这时候HBase就派上用场。
2023-08-22 15:18:33
1429
原创 大数据——Hive一文全知道
UDF: ⽤户⾃定义函数(user-defined function)相当于mapper,对每⼀条输⼊数据,映射为⼀条输出数据。UDAF: ⽤户⾃定义聚合函数 (user-defined aggregation function)相当于reducer,做聚合操作,把⼀组输⼊数据映射为⼀条(或多条)输出数据。运行别人写好的UDF示例:在hdfs中创建 /user/hive/lib⽬录把 hive⽬录下 lib/hive-contrib-2.3.4.jar 放到hdfs中。
2023-08-16 20:32:02
140
原创 大数据——Hadoop一文全知道
Hadoop是Apache下面一个开源分布式计算框架,它具有分布式计算框架、可靠性和可拓展性等优点。它能够处理存储在计算机集群上的大规模数据集;方便拓展,从单个服务器扩展到千台计算机,并且每台都能提供本地计算和存储;不依靠硬件来提供可用性,而是通过软件层面处理和解决故障。Hadoop一般用于搭建大型数据仓库和PB级数据的存储、处理、分析和统计等业务。
2023-08-15 17:26:41
174
原创 大数据——推荐系统
推荐系统是指面对没有需求的用户在进入产品时,要给用户推荐什么东西,现在的APP基本上都会采用推荐系统。从一开始的1990s开始的门户网站,像Yahoo、搜狐和Hao123等等,都是基于分类目录的网页导航网站,将各个网页聚合在一个网页中,方便用户跳转访问;到了2000s开始,进入搜索引擎,例如百度、google和必应,用户通过有目的的搜索,找到自己的需求网站;
2023-08-08 11:29:32
1812
原创 使用toad库进行机器学习评分卡全流程
定义模型函数的使用函数,在函数中分别进行正向调用和逆向调用,验证模型的效果上限。如逆向模型训练集KS值明显小于正向模型训练集KS值,说明当前时间外样本分布与开发样本差异较大,需要重新划分样本集。我们能看到前3箱出现上下波动,与整体的单调递减趋势不符,所以进行分箱合并。绘制Bivar图,观察该特征分享后是否单调性,不满足单调性需要调整分箱。由于卡方分箱后部分变量的IV降低,且整体相关程度增大,需要再次筛选特征。使用逐步回归进行特征筛选,这里为线性回归模型,并选择KS作为评价指标。生成验证集的ks报告。
2023-08-03 11:26:03
1724
2
原创 使用toad对数据进行分箱处理
Toad 是专为工业界模型开发设计的Python工具包,特别针对评分卡的开发。Toad 的功能覆盖了建模全流程,从 EDA、特征工程、特征筛选到模型验证和评分卡转化。Toad 的主要功能极大简化了建模中最重要最费时的流程,即特征筛选和分箱。一般分箱的折线图要实现单调的趋势,所以我们要调整分箱的箱数。0和1组存在倒挂,即badrate不单调,0和1进行合并。使用toad进行分箱,并输出分箱的内容。读取数据并查看数据基本内容。使用toad计算woe。
2023-07-31 15:53:58
1817
原创 机器学习——异常检测
异常点检测(Outlier detection),⼜称为离群点检测,是找出与预期对象的⾏为差异较⼤的对象的⼀个检测过程。这些被检测出的对象被称为异常点或者离群点。异常点(outlier)是⼀个数据对象,它明显不同于其他的数据对象。异常点检测的应用也十分广泛,例如:信用卡反欺诈、工业损毁检测、广告点击反作弊、刷单检测和羊毛党检测等等。一般异常检测是无监督学习,因为它不是二分类而是多分类问题。**问题1:**为什么要用无监督异常检测方法?很多场景没有标签或者标签很少,不能进行监督训练;
2023-07-28 17:46:12
3796
1
原创 机器学习——样本不均衡学习
一般在分类机器学习中,每种类别的样本是均衡的,也就是不同目标值的样本总量是接近的,但是在很多场景下的样本没有办法做到理想情况,甚至部分情况本身就是不均衡情况:(1)很多场景下,数据集本身不平和,部分类别的数据多于其他数据;(2)固定场景下,例如风控的场景,负样本的比例远远小于正样本的占比;(3)梯度下降过程中,不同类别的样本量比较大时,模型本身很难做到收敛最优解。
2023-07-28 14:01:42
1225
原创 lightGBM实例——特征筛选和评分卡模型构建
数据还是采用这个例子里的数据,具体背景也同上。跟评分卡公式对其进行评分并划分等级。绘制bad_rate和ks折线图。将训练集的数据进行分组。
2023-07-27 14:56:07
1411
原创 XGBoost实例——皮马印第安人糖尿病预测和特征筛选
经过特征筛选后的模型没有得到加强训练集和测试集的auc值变动较大,泛化能力较弱,需要对数据进行K折验证。
2023-07-26 18:36:47
1240
原创 集成学习——Boosting算法:Adaboost、GBDT、XGBOOST和lightGBM的简要原理和区别
Boosting算法是通过串联的方式,将一组弱学习器提升为强学习器算法。它的工作机制如下:(1)用初始训练集训练出一个基学习器;(2)依据基学习器的表现对训练样本分布进行调整,使得之前做错的训练样本在之后中得到最大的关注;(3)用调整后的样本分布进行下一个基学习器;(4)重复2-3的步骤,直到基学习器的数量达到了指定的T值后(5)将T个基学习器进行加权组合得到集成的学习器。而根据策略不同,会有Adaboost和GBDT、XGBoost三种常见的Boosting算法。
2023-07-25 21:34:05
3832
原创 集成学习——Bagging算法和随机森林算法
分类结果更加准确处理高纬度的特征,不用进行特征选择允许数据缺失,但仍然可以维持较高的准确度学习的速度快能够筛选出特征的重要性能够进行并行计算能够检测特征之间的相互影响。
2023-07-25 16:10:52
536
原创 特征筛选——风控业务为例
特征的好坏直接影响到机器学习的效果,机器学习模型本身只能尽可能接近本身的上限,而特征工程决定了机器学习的上限。所以特征工程尤其重要。特征构造之后就要进行特征筛选。
2023-07-21 11:35:17
245
原创 特征工程——特征构造
梳理ER图类似于sql的数据库表的设计,表明数据之间的联系特征文档整理将ER图中的表结构整理到特征文档中,可以清楚知道取这些数据的意义。
2023-07-18 20:22:13
662
原创 特征衍生——司机信贷规则挖掘
某个互联网公司有个"司机贷"的产品,网约车司机可以申请该产品,同时该公司还有其他的贷款产品,例如:“网商贷”针对电商平台的;“骑手贷”针对外卖平台的,多个产品共用一个规则和申请评分卡。现在“司机贷”产品的逾期率增高,其他产品的30d逾期率为1.5%,而“司机贷”30d逾期率达到了5%,需要在现有风控架构不变的前提下,使用现有数据挖掘出简单有效的业务规则。
2023-07-18 16:07:26
154
原创 决策树和随机森林实例——泰坦尼克号存活问题
任务:预测泰坦尼克号乘客能否存活 预测模型 分类问题在本次案例中,随机森林的各方面性能和评分会比决策树更好一些。
2023-07-17 11:46:01
1246
原创 Mac安装Graphviz中出现的问题
打开终端command,输入以下代码出现下载homebrew源的选择,随便选择一个即可。之后问你要不要删除之前的brew版本,输入y即可,然后会让输入开机密码,输入过程不会显示,输入密码按enter键就可以。之后会进行下载和安装最后会出现问你是否需要下载Core、Cask、services,这里输入y,之后会输入好几遍密码。之后会进行brew install的下载源选择,随便选择即可。
2023-07-14 16:58:38
836
原创 机器学习——决策树
剪枝是指将一颗子树的子节点全部删掉,利用叶子节点替换子树(实质上是后剪枝技术),也可以(假定当前对以root为根的子树进行剪枝)只保留根节点本身而删除所有的叶子。
2023-07-13 10:38:55
93
原创 机器学习实战——金融风控业务分析
以上数据信息可以看出,关键数据存在一定的缺失,需要根据实际情况进行填充,而日期数据需要转化为日期格式。对缺失数据进行填充,对时间数据进行日期转化。90天账单金额和未收金额,并讲这三组数据合并。计算账期60天的入催率和90天的入催率。添加季度特征项,准备数据分组。分析不同账期的资金回收情况。按季度对数据进行分组。
2023-07-12 11:08:01
253
2
原创 置信区间proportion_confint和z检验proportions_ztest的用法
以(近似)1-alpha的置信度的下限和上限置信区间。当返回Pandas对象时,取“count”的索引值。
2023-07-07 10:49:49
833
原创 数据分析——A/B测试及其实战
A/B测试是为 web 或 app 界面或流程制作两个(A/B)或多个版本,在同一时间维度,分别让组成成分相同(相似)的访客群组(目标人群)随机的访问这些版本,收集各群组的用户体验数据和业务数据,最后分析、评估出最好版本,正式采用。
2023-07-05 16:11:21
1723
原创 彻底解决jupyter无法安装statsmodels库
由于使用Anaconda对环境变量进行分区,所以无法使用命令行进行安装。一、后面想到直接打开Anaconda里面安装,打开Anaconda进去环境页面如下图操作。一开始直接pip安装statsmodels会出问题,显示无法安装。二、打开Anaconda后,进入jupyter,再次进行pip安装。
2023-07-05 15:32:07
1603
原创 统计学——简单理解卡方检验
卡方检验用来分析两个分类变量之间是否显著相关,卡方检验属于非参数检验,由于非参检验不存在具体参数和总体正态分布的假设,所以有时被称为自由分布检验。而区别参数检验和非参数检验的,就是看数据类型,分类变量无法计算平均值和方差,所以为非参数检验。
2023-07-04 16:13:16
2988
1
原创 统计学——简单理解方差分析
方差分析(analysis of variance),简写为ANOVA,指的是利用对多个样本的方差的分析,得出总体均值是否相等的判定。它是一种分析调查或试验结果是否有差异的统计分析方法,也就是检验各组别间是否有差异。
2023-07-04 11:57:45
1084
原创 统计学——全流程总结置信区间与假设检验
估计总体参数的一个具体值。:估计总体参数的一个区间。:对于一个我们永远无法知道总体的的情况下,我们通常用样本估计总体,那么我们估计的总体参数会有一个误差范围,这个误差范围就是置信区间。比如估计平均值中,我们用中括号[a,b]表示样本估计总体平均值的误差范围的区间,由于a和b的确切数值取决于你希望自己对于“该区间包含总体均值”这一结果具有的可信程度,因此,[a,b]被称为置信区间。:我们选择这个置信区间,目的是为了为了让“a和b之间包含总体平均值”这一结果具有特定的概率,这个概率就是置信水平。
2023-07-03 16:55:36
2218
原创 统计学——抽样与中心极限定理
总体是要研究对象的整个群体。:是从总体抽取一部分出来,代表总体情况的。:抽取这一部分的数量:从总体抽取部分,抽取几次。
2023-06-30 12:19:28
984
原创 统计学——离散概率分布和连续概率分布
同样的条件下进行的相互独立的实验,特点是实验的可能结果只有两种。成功/失败。如果随机变量X是一次伯努利实验,则这个随机变量就符合伯努利分布。一次抛硬币就是典型的伯努利分布。
2023-06-28 13:26:13
2187
原创 统计学——概率分布、期望、方差
将随机事件的每一种结果赋予一个数字,根据变量是否连续分为两种:连续随机变量和离散随机变量。:随机变量的取值不连续,例如抛硬币。:随机变量的取值是连续的,例如一段绳子的长度。:用统计图来表示随机变量所有可能结果对应发生的概率。横轴是随机事件所有可能的结果(即随机变量的对应的数值),纵轴是对应每个结果发生的概率。我们之所以要将变量分为两种,因为不同类型的变量对于求概率的方法不同。
2023-06-27 17:57:25
506
原创 统计学——协方差和相关系数
如果又引入一个随机变量年龄Z(year),年龄Z与体重X的协方差的单位为:year·kg,年龄Z与身高协方差的单位为:year·cm。我们计算所有矩阵的面积,最后的结果也为正数,这说明X,Y这两个随机变量整体上是正相关的关系;我们在平面坐标上先画出2个人的坐标点,然后以两个点画一个矩阵,为了后续更好的解释正负相关性,我们用红色表示正相关,蓝色表示负相关。接下来我们在该平面上引入第三个点,那么第三个点和前两个点分别组成矩阵,由于该同学比较瘦高,那么第三个点和前两个点呈负相关,呈蓝色,如下图所示。
2023-06-27 15:25:46
342
蓝桥杯青少年省国赛15题练习题和答案
2022-05-19
bzoj测试数据118题数据
2022-05-07
LDD 使用手册中文
2019-04-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人