
数据分析
CoffreLv
平平淡淡,简简单单。
展开
-
从样本集到WOE、IV值的变迁
从样本集到WOE、IV值的变迁样本集在建模任务开始之前首先需要有训练数据,也就是样本集。在对样本集的所有特征数据进行整理和预处理后,就可以对每一个特征的各个取值计算WOE。WOE(Weight of Evidence)证据权重WOE是对原始特征的一种编码形式,要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱),如果是离散变量可以直接进行编码。对每个分组或取值,响应比例(二分类取值为1的正样本比例)越大,WOE值越大;当前分组WOE的正负,由当前分组响应和未响原创 2021-11-04 19:00:00 · 292 阅读 · 0 评论 -
SAS通过Merge实现SQL中in操作
场景假设有某班学生名单列表(小表)name_list(name id),以及全校学生信息数据表(大表)student_info(name id parent address email),现在需要根据全校学生名单列表name_list,获取班级名单中学号id对应学生的信息。SQL代码select * from student_info t1where t1.name in (select name from name_list)SAS代码实现依据学号id对两个数据表进行排序,排序后才可以进行原创 2021-10-22 21:00:00 · 1486 阅读 · 0 评论 -
SQL取表中某字段的最新日期对应数据
SQL取表中某字段的最新日期对应数据多条SQL实现,适合数据量比较大的情况SQL为Teradata下代码,其它数据库需作调整创建临时表,存储要取字段的范围create multiset volatile table tmp_table( key_name varchar(100), last_date varchar(100))ON COMMIT PRESERVE ROWS;取对应字段及其最新日期insert into tmp_tableselect key_name原创 2021-10-24 14:42:10 · 8653 阅读 · 0 评论 -
SAS EG ERROR:******引用越过文件结尾的页
SAS EG ERROR:******引用越过文件结尾的页引发错误的场景项目需要引用前期项目已经生成的SAS数据集,所以从另一个项目中下载下来,要上传到SAS服务器。但是多次上传都报这个错误,开始认为是由于缓存空间不足。后来反复溯源发现这个数据集共30G左右,但是本地存储空间只有10G,所以每次下载的数据集都是缺失的,导致了这个错误。解决办法扩充本地存储空间后再次下载上传在我的应用场景中,由于...原创 2021-09-29 09:39:10 · 410 阅读 · 0 评论