- 博客(62)
- 收藏
- 关注
原创 BOSS直聘上java岗位的薪资分析
数据包括职位名称、base地点、薪资水平、经验及学历要求、招聘公司、行业、融资阶段、员工规模等 文末获取数据集。
2024-02-29 11:22:12
1364
原创 Python银行授信响应模型实战
在金融信贷领域中,授信、定价等产品信息会直接影响客户是否用信,此外客户自身的需求程度、竞品授信定价信息、自身经济能力、家庭环境等等因素都会影响用信行为。对于放贷机构而言,在授信额度/定价允许的范围内(如额度越高、风险也会越高),希望能提高整体用信率、从而增加业务规模,那么如果能提前预测出用户的用信概率,就可以用于指导运营活动、授信定价策略,促进业务增长。
2024-02-18 10:04:25
1068
原创 Python银行信贷风控实战2
之前写过一篇银行信贷风控实战了,但是包括之前其它信贷风控的实战内容在内,实际上和工作中完整项目之间还存在很多差距,这篇银行信贷风控实战2所使用数据更接近工作中的真实数据,需要自行从原始借贷还款记录中提取逾期标签用于分析建模、而不是简简单单地直接给你处理好的Y标签(实际工作时需要自行处理的)。所以重点推荐本文原始数据、以及逾期标签的打标方法。
2024-02-06 10:00:00
1140
原创 2024年美国大学生数学建模竞赛(美赛)C题思路
训练模型来预测球员在比赛的特定时间表现得更好,以及他们的表现有多好;球员表现是否好依赖能否得分,一场下来要么play1得分、要么play2得分,所以可以落到二分类问题上(每一局是否得分),同时模型要求能够预测球员每个时点的表现,那么在变量列表中就应该包含时间特征/场次特征(如第三盘、第一小局),另外球员的个人水平和状态具有惯性、所以也需要统计之前场次的表现/得分特征(如第三盘开始时,球员1已经胜利的局数),题目提供的数据中还包括发球速度、发球方向、发球深度、返回深度等特征,以及是否发球者的0/1特征。
2024-02-02 22:59:58
831
原创 2024年美国大学生数学建模竞赛(美赛)思路及代码
美国大学生数学建模竞赛(MCM/ICM)由美国数学及其应用联合会主办,是唯一的国际性数学建模竞赛,也是世界范围内最具影响力的数学建模竞赛。赛题内容涉及经济、管理、环境、资源、生态、医学、安全、等众多领域。
2024-01-31 10:38:53
1123
2
原创 最简数据挖掘|房租价格预测
数据源自最简数据挖掘系列,内容包括位置、出租方式、卧室/客厅/卫生间数量、楼层、面积、装修情况、户型朝向、小区房源情况等等信息,其中包括位置、区、小区名、Label等在内的多个字段都已经过编码/脱敏处理。数据获取见文末。
2024-01-29 10:00:00
585
原创 最简数据挖掘|垃圾邮件分类
数据源自最简数据挖掘系列,Email英文的邮件内容,其中Label列ham为正常邮件、spam为垃圾邮件。数据获取见文末统计邮件是否为垃圾邮件的标签分布如下,可以看到4458样本中有592条垃圾邮件。
2024-01-24 10:00:00
815
原创 seaborn可视化示例详解
Seaborn是一个基于Python的数据可视化库,Seaborn提供了许多用于绘制统计图形的高级界面,在Matplotlib的基础上,Seaborn进行了更高级的封装,使得作图更加方便快捷。即便是没有什么基础的人,也能通过极简的代码,做出具有分析价值而又十分专业的图形。虽然没有pyecharts的动态、交互功能,但是胜在便捷、代码量少、必须的配置也少,可以快速出图。本文使用房价数据、房租数据、iris数据集进行展示,数据获取见文末添加分类的散点图,仅需要添加一个hue参数指定分组列名即可设置样式。
2024-01-22 09:58:04
816
原创 2024年“华数杯”国际大学生数学建模竞赛B题思路
首先得获取数据,中国的宏观数据相对容易(包括电力、经济、人口、教育、基础建设、研发投入、科研水平等等方面,获取数据方式见下面),拿到数据后研究指标之间的关系,相关性分析和线性回归(宏观指标单位不统一、可以考虑平滑处理),时间序列的预测可以用趋势外推+多元线性回归或者RNN模型等。成本和效益,以及地理和照明条件的具体数据不好查,所以可行性研究可以结合定性+定量结合分析,数据方面论文可能有一些可以参考,这一问在参考其他数据基础上可以适当做一些数据假设来分析。请选择一个地区,并讨论在那里建造光伏发电厂的可行性。
2024-01-17 08:15:16
1607
原创 最简数据挖掘|房价预测
数据源自最简数据挖掘系列,内容出售日期、卧室/浴室数量、楼层、生活面积、停车坪面积、地下室面积、建筑面积、修成年份、经纬度等等信息。数据获取见文末字段含义。
2024-01-15 10:00:00
924
原创 NLP|LSTM+Attention文本分类
LSTM是一种特殊的循环神经网络(RNN),用于处理序列数据和时间序列数据的建模和预测。而在NLP和时间序列领域上Attention-注意力机制也早已有了大量应用,本文将介绍在LSTM基础上如何添加Attention来优化模型效果。
2024-01-10 21:41:44
1864
原创 Python银行营销响应模型实战
在金融信贷领域的获客环节中,银行/金融机构往往通过电销的方式来邀请客户进行存款、购买金融产品、借贷等活动,而营销响应模型可以在营销活动数据基础上,通过学习是否成功营销和特征数据间的关系、能够精准识别未来其他客户的响应概率(如购买理财产品意愿),只针对高响应人员营销、从而极大提升营销人员工作效率。
2024-01-08 18:52:27
1243
原创 BOSS直聘上算法岗位的薪资分析
数据包括职位名称、base地点、薪资水平、经验及学历要求、招聘公司、行业、融资阶段、员工规模等 文末获取数据集。
2024-01-02 10:42:30
1743
原创 2023年第三届中国高校大数据挑战赛B题思路
代码更新得看时间、可能会晚一些,也会在公众号更新任务 1:观察数据集“train_reads.txt”、“train_reference.txt”,针对这次合成 任务,进行错误率(插入、删除、替换、断链)、拷贝数方面的分析。其中错误 率定义为某个碱基发生错误的概率,需要对不同类型的错误率分别进行分析。拷 贝数定义为原始序列复制的数量。对每种错误情况单独统计分析似乎有点麻烦,因为每种错误随机发生,不能直接统计字符个数差异、或者字符串遍历的字符差异;
2023-12-28 14:12:02
961
原创 Pandas爬虫-只需要一行
还在为论文、大作业的数据获取而发愁吗,来试试Pandas爬虫、代码只需要一行,让爬取数据不再遥不可及。众所周知数据的获取极其重要,而Python爬虫既实用又听起来高大上,本文通过两个实战小例子来介绍Pandas爬取表格数据。
2023-12-25 17:13:55
1104
原创 BOSS直聘上数据分析岗位的薪资分析
昨天-2023年12月24日抽空爬取了一下BOSS直聘上base北京的数据分析岗位的相关数据,本文简单分析拿给大家做参考,该说不说、在现在的大环境下数据分析薪资还是高的呀。 在PC端上打开BOSS直聘网页搜索数据分析,只会显示10页岗位(每页30条),所以我按照工作经验要求对应届生、 1年以内、 1-3年、 3-5年、 5-10年、 10年以上分别爬了10页数据,总共1800条。
2023-12-25 09:52:32
2297
原创 2023年第三届中国高校大数据挑战赛思路及代码
1、大数据统计分析方向涉及内容包含:数据的清洗、数据的预测、数据之间的关联分析、综合评价、分类与判别等2、文本或图象分析方向涉及内容包含:计算机视觉基础、特征匹配算法(常用的图像特征提取及匹配算法,如SIFT、SURF、FAST、BRIEF、ORB等)
2023-11-30 16:31:18
2808
1
原创 Python银行信贷风控建模实战(xgb+lgb)
银行风控数据来源某比赛网站(下图仅为部分字段),数据集中包含银行借贷订单的金额、利息、账期、担保等基本信息,还有历史授信情况,数据类型同样包含数值型、类别型、日期等变量,同时存在缺失问题,适合初学者入门练习
2023-11-28 09:51:44
2327
原创 2023APMCM亚太地区大学生数学建模竞赛C题思路
题目关键在于数据获取,注意到问题2-5分析建模都需要有一定的数据基础,而问题1 也提到建模分析,所以还是要获取一定的数据(如过去10年中国普通汽车/新能源电动汽车产量、销售量、销售金额等,以及相关分析因素数据包括但不限于经济发展数据、人口数据、空气环境等数据以及政策数据
2023-11-23 11:21:40
576
原创 异常检测之自编码器AutoEncoder
自编码器(Autoencoder)是一种神经网络结构,由编码器(Encoder)和解码器(Decoder)两部分组成。编码器将输入数据映射到低维编码空间,而解码器将编码空间的表示映射回原始输入数据的空间,训练目标是最小化重构数据与原始输入数据之间的差异。.本文使用AutoEncoder实战异常检测,分别测试自行构建AutoEncoder和调用pyod包进行对比评估。
2023-11-23 10:00:00
2342
原创 Pandas表格样式,你有table-style吗
Pandas提供了style功能,可以直接实现excel里的高亮、色阶、数据条、单元格格式设置、字体设置等等功能,简单场景下不需要把数据导出再调整样式了,本文逐条盘点一下
2023-11-20 08:05:35
857
原创 Python风控实战催收评分卡(xgb)
在风控环节中,传统观念A卡为主、B卡C卡为辅,但是在市场逐步饱和、政策利率要求越来越低的背景下,B卡和C卡也越来越重要。本文以简易贷后数据实战催收评分模型,预测在用户逾期后、未来能否催回。
2023-11-16 09:45:00
948
原创 2023第二届全国大学生数据分析大赛A题思路
首先看整个题目和问题,最终目的是通过用户的交易行为、交易金额、 交易频率、交易时间等信息,分析用户的行为,可促进二次营销,精准营销,促活;题目中要求建模来定位给那些用户发放优惠券,而发优惠券正是促销手段的一种。
2023-11-05 10:20:05
2524
7
原创 DataCastle企业风险算法赛实战(进阶难度)
DataCastle的华录杯算法赛实战,本文数据处理较为复杂、特征挖掘内容较多,适合统计学/机器学习相关专业、或者有一定模型算法/数据挖掘经验的同学,经验较浅的也可以作为进阶项目实战提升。
2023-11-03 10:00:00
430
1
原创 Python租房价格分析及预测(xgb+catboost+rf)
早年爬取过我爱我家上北京的部分租房信息,现在重新拿来分析和建模,以往文章大多偏二分类、这次来个数据分析+回归模型的文章。
2023-10-30 10:00:00
1354
原创 2023MathorCup高校数学建模挑战赛B题建模思路
在预测问题上,需要考虑的第一个重点是对于每种商家、仓库、商品组合的销量数据,是否需要单独构建一个模型,本题数据中商家、仓库、商品组合种类繁多,又给了商家、仓库、商品的属性特征,所以可以考虑先做一个整的模型看看效果,需要优化再拆分建模(也可以根据分类后的组合进行分别建模)。预测往往是智能供应链的决策基础,它可以让管理者提前预知各地的需求,从而将库存提前放在靠近需求的仓库中,此时的预测任务为:根据历史一段时间的需求量,预测各仓库中各商品未来需求,“预测维度”即为不同商家在各仓库中存放的各种商品每天的数量。
2023-10-27 21:04:41
755
原创 异常检测之PCA实战
PCA是一个经典的线性降维算法,而降维算法可以先进行降维、再重构数据,那些难以重构的样本就是和整体分布差异较大的样本点,我们通过计算原始数据和重构数据的差异来识别出难以重构的样本,从而达到异常检测的目的。本文结合信用卡的退款欺诈行为数据,来详解PCA异常检测实战过程
2023-10-19 09:30:00
1611
原创 kaggle风控建模实战(XGB+LGB+RF+LR)
本文使用kaggle风控数据集,在数据预处理、特征筛选的基础上,分别使用xgb、lgb、rf、lr构建二分类模型并使用ks、auc指标进行评估比较,提供集成代码及数据集,欢迎交流
2023-10-09 10:00:00
1817
1
原创 Pandas非常规但实用的骚操作2
方法可以对数据进行重塑操作,将宽格式的数据转换为长格式,常用于数据处理和分析。方法可以对指定的列进行聚合操作,将多个值合并为一个值,常用于数据处理和分析。方法可以按照指定的时间间隔对数据进行重采样,常用于时间序列数据的处理。方法可以对整个DataFrame进行映射。DataFrame中的。DataFrame中的。DataFrame中的。DataFrame中的。DataFrame中的。DataFrame中的。DataFrame中的。DataFrame中的。DataFrame中的。DataFrame中的。
2023-10-04 09:30:00
133
原创 Pandas非常规但实用的骚操作1
在 Pandas 中,可以使用 apply 方法将自定义函数应用到 Series 或 DataFrame 的每个元素上# 创建一个 DataFrameprint(df)# 定义一个自定义函数,计算平方值并返回新列名# 使用 apply 进行自定义函数应用,将函数应用到 A 列上,并将结果存储在新列中print(df) # 输出 DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 0: [1, 4, 9], 'squared': [1, 4, 9]})
2023-10-01 09:30:00
179
原创 文本分类-Word2vec+LSTM
LSTM是专门用于处理序列数据(文本序列、时间序列)等的RNN模型之一,本文分别按照embedding+LSTM、word2vec预训练模型+双向LSTM两种方式进行文本分类的代码实战,附带LSTM层参数详解,尽可能给读者带来多的收获
2023-09-26 09:00:00
1372
2
原创 异常检测之IF孤立森林实战
异常检测中,算法选择只是其中一环,前期最重要的是依据业务场景、业务目标来进行目标相关特征挖掘(如应用于信贷/交易欺诈,则需要着重挖掘欺诈特征)、把握数据分布、特征筛选、再依据特征分布情况选择合适的算法,另外部分业务场景还得考虑解释性;而异常检测本身是无监督算法,落地更适用于监督模型的辅助、而非独立决策。本系列会尽可能全面的覆盖到这些要点,也欢迎读者们交流讨论。
2023-09-12 15:45:00
945
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人