1.去重操作
#重复原因:系统跑批出错导致同一busi_no对应不同的批次trans_seq;
#去重逻辑:对每一Unique busi_no选择最新的trans_seq;
#操作方法:proc sort by busi_no descending trans_seq run; proc sort nodupkey by busi_no;
2.分布查询处理
#关于客户画像部分,主要看各种分箱比例,python中可以用cut操作,sas中使用format,最好在开始处理数据之前就讲format定好;
#format tip: 像缴款评等特殊码值,截取后在format中应用invalue e.g. ‘N1’=‘01.N1’;
3.特别大的表优化取数
#某些特别大的表取数时,可根据busi_no截取日期,在where中进行限制,从而提高读取速度;
4.sql select
#使用left join连接表,select字段要清楚 e.g. a.* b.*;
5.男女判断逻辑
#取身份证号第十七位数字,使用mod除2判断整除余数是否为0;
6.分隔符号的连接的字段码值取出
#对于由分隔符号连接的字段码值,一个字段中一行中存在多个连接的码值;
#按照分隔符号取码值tip:scan;
#do while 循环取出;
7.结果汇总表加工
#先构建变量名和分类维度表
e.g.
n var type#delimiter=‘,’
1,highet,human
2.weight, pig
3,lenth, chicken
#建立宏函数#用do循环批次取出每一行观测值#call symputx将变量塞入宏变量中
#对批次取出的观测值,使用sql语句取出并groupby;
#最后对每一批次的sql取出表用proc append进行连接#方便在excel中拉出透视表;
人行数据处理总结
最新推荐文章于 2025-12-25 14:14:50 发布
5285

被折叠的 条评论
为什么被折叠?



