自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 天池入门赛o2o比赛笔记0731

本赛题提供用户在2016年1月1日至2016年6月30日之间真实线上线下消费行为,预测用户在2016年7月领取优惠券后15天以内的使用情况。针对此任务及一些相关背景知识,使用优惠券核销预测的平均AUC(ROC曲线下面积)作为评价标准。即对每个优惠券coupon_id单独计算核销预测的AUC值,再对所有优惠券的AUC值求平均作为最终的评价标准。注意: 为了保护用户和商家的隐私,所有数据均作匿名处理,同时采用了有偏采样和必要过滤。给出用户1-6月的消费行为,预测用户领取优惠券后是否。

2025-08-07 10:09:06 241

原创 数分学习002

Pandas中Series和DataFrame的两种数据类型中都有nunique()和unique()方法。这两个方法作用很简单,都是求Series或Pandas中的不同值。而unique()方法返回的是去重之后的不同值,而nunique()方法则直接放回不同值的个数。df_merge[‘day’] - df_merge[‘birthday’]datetime类型相减得到的是时间差(timedelta),所以分母也要命名为时间差类型。展示df_trade表的前五行,包括标题。生成对应格式的基本统计参数。

2025-07-28 12:18:29 226

原创 数分学习001

字段脱敏:对真实数据中部分隐私内容打码,防止隐私泄露。保留信息段(如身份证中的地区,性别)手机尾号(保留身份)将 day 列强制转换为 字符串类型(str),确保后续 pd.to_datetime能正确解析。将字符串格式的日期转换为 Pandas 的 datetime64类型,便于时间序列操作。pd.to_datetime将str等转换成datetime类型,格式最好是。(可提取年份,月份,季度quarter)提取datetime格式的day的年份。,若代入纯数字int,如。

2025-07-28 10:45:02 138

原创 笔记_200731

每天逼着自己写点东西,终有一天会为自己的变化感动的。这是一个潜移默化的过程,每天坚持编编故事,自己不知不觉就会拥有故事人物的特质的。 Explicit is better than implicit.(清楚优于含糊)

2020-08-01 09:40:28 143

原创 基于词向量空间专业化的动词类跨语言归纳与迁移

基于词向量空间专业化的动词类跨语言归纳与迁移本文探讨了三个重要的问题:(Q1)考虑到它们对分布假设的基本依赖性,在多大程度上无监督的向量空间诱导方法可以促进不同语言间VerbNet风格动词类的自动诱导?(Q2)能否通过开发通用跨语言资源,如BabelNet (Navigli and Ponzetto,2012;Ehrmann et al.,2014)或双语词典,如PanLex(Kamholz...

2020-03-17 21:06:14 441

原创 集合语义空间提高动提取同义词能力

集合语义空间提高动提取同义词能力背景2. 使用方法概括3. 具体步骤4. 初次论文阅读感想文章出发点:医学界需要统一医学文章的专用词语言,从而针对医学文本同义词提取精度有限的问题,进行提高同义词从其他语义关系中分离开的能力。方法概括:(1)语料库预处理 (2)从两个语料库(和联合语料库)构建语义空间,(3)识别最有利可图的单个语料库(和联合语料库))组合,(4)识别最有利(不相交)的...

2020-03-12 21:13:41 530

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除