- 博客(23)
- 收藏
- 关注
原创 Introduction and Word Vectors
Introduction and Word Vectors Word2vec introduction Word2Vec是语言模型中的一种,它是从大量文本预料中以无监督方式学习语义知识的模型,被广泛地应用于自然语言处理中。 Word2Vec是用来生成词向量的工具,而词向量与语言模型有着密切的关系。因此,我们先来了解一些语言模型方面的知识。## Word2vec objective function gradients Optimization basics Looking at word vectors
2021-11-21 23:35:37
849
原创 统计fa文件每条染色体长度
import sys fasta_path = sys.argv[1] s = [] fw = open(fasta_path, "r") lines = fw.readlines() a = 0 for line in lines: if line[0] == ">": s.append(a) s.append(line[1:-1]) a = 0 else: a = a + len(line) s.append(a) d
2021-05-30 16:13:28
1129
原创 Task06:学习总结
Task06:学习总结 最后一次打卡,就弄点ARIMA模型。 用差分法解决非平稳序列。 七夕节,居家隔离了30多天了实在是恶心,学不下去了,不知道明天能不解封。
2020-08-25 23:18:43
156
原创 Task05:建模预测
Task05:建模预测 模型主要分为多元回归和线性模型(都可以直接掉包使用),还有nn 目前主要应用lgb、xgb、catboost和nn,在参数设置方面,主要用昊神的祖传参数。难点在模型融合,有两种融合方式,一种是直接将结果加权平均,另一种是stacking。 这个我认为很好,是天池二手车的一位同学的分享。 ...
2020-08-24 22:55:17
176
原创 Task04:特征工程
Task04:特征工程 离散型特征 离散特征的增加和减少都很容易,易于模型的快速迭代 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰 逻辑回归属于广义线性模型,表达能力受限;单变量离散化为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合 离散化后可以进行特征交叉,由M+N个变量变为M*N个变量,进一步引入非线
2020-08-24 22:46:32
153
原创 Task03:时间序列模型
Task03:时间序列模型 时间序列分解 时间序列变化的影响: 1.长期趋势(trend):会导致序列出现明显的长期趋势。 2.循环波动(circle):会导致序列呈现出周期性波动。 3.季节性波动(season):会导致序列呈现出和季节相关的稳定的周期波动。(一种特殊的波动) 4.随机波动(immediate):纯随机、与时间无关。 SLT(Seasonal and Trend decomposition using Loess)分解 将时间序列分为三类: 1.没有趋势、也没有周期的序列(水平时间
2020-08-22 21:46:30
447
原创 Task02:时间序列规则
Task02:时间序列规则 规则做预测的重要性 我感觉能写好规则的人都很厉害,有一次拍拍贷的比赛,我队友一个规则的成绩跑平了lgb的好多模型,直接进入复赛。还是这个队友在cikm2019大规模推荐比赛中,用自己写的规则进入前50,差点弄过了我的协同过滤。据我所知拍拍贷的第一可以用规则,机器学习以及nn都达到第一的分数。 时间规则的基本方法 第一步: 除以周均值,得到一个比例。 第二步: 按列取中位数。 预测时,以100为base,得到下表 针对周期因子的优化 可以使用平均值和中位数,然后将均值
2020-08-22 19:07:31
215
原创 Task1 数据探索与分析
Task1 数据探索与分析 1.赛题介绍 1.1赛题背景信息和赛题要求。 使用已有数据,精确预测在2014 年 9 月每天一行的申购总额和赎回总额。 1.2掌握赛题的数据情况和结果评估方法。 赛题数据提供了2013年7月-2014年8月每天的申购赎回数据,28041位用户,共有2840421条记录。计算所有用户在测试集上每天的申购及赎回总额与实际情况总额的误差为评估方法,最后公布总积分 = 申购预测得分 *45%+ 赎回预测得分 *55% 。 2.数据可视化基本知识 2.1基本图表 2.1.1-直方图 2
2020-08-20 19:00:57
478
原创 时序数据
【问题一】 如何对date_range进行批量加帧操作或对某一时间段加大时间戳密度? 批量加帧操作 pd.date_range(start='2020/1/1',periods=x,freq='D') 某一时间段加大时间戳密度 pd.date_range(start='2020/1/1',end='2020/1/10',periods=x) 【问题二】 如何批量增加TimeStamp的精度? Timestamp的精度远远不止day,可以最小到纳秒ns pd.to_datetime('2020/1/1 00:
2020-06-29 23:53:21
210
原创 分类数据
【问题一】 如何使用union_categoricals方法?它的作用是什么? 【问题二】 利用concat方法将两个序列纵向拼接,它的结果一定是分类变量吗?什么情况下不是? 结果不一定是分类变量 【问题三】 当使用groupby方法或者value_counts方法时,分类变量的统计结果和普通变量有什么区别? 【问题四】 下面的代码说明了Series创建分类变量的什么“缺陷”?如何避免?(提示:使用Series中的copy参数) 大哥我下班回去重新写,昨天忘了。 ...
2020-06-28 09:39:16
180
原创 文本数据
【问题一】 str对象方法和df/Series对象方法有什么区别? str.replace针对的是object类型或string类型,默认是以正则表达式为操作,目前暂时不支持DataFrame上使用;replace针对的是任意类型的序列或数据框,如果要以正则表达式替换,需要设置regex=True,该方法通过字典可支持多列替换。 【问题二】 给出一列string类型,如何判断单元格是否是数值型数据? 【问题三】 rsplit方法的作用是什么?它在什么场合下适用? 【问题四】 在本章的第二到第四节分别介绍了字
2020-06-26 23:59:30
281
原创 缺失数据
问题 如何删除缺失值占比超过25%的列? df.isna().sum()/df.notna().count() 什么是Nullable类型?请谈谈为什么要引入这个设计? 与原来标记int上的符号区别在于首字母大写:'Int '。其目的就是为了(在若干版本后)解决之前出现的混乱局面,统一缺失值处理方法。 对于一份有缺失值的数据,可以采取哪些策略或方法深化对它的了解? 1.统计缺失值 2.根据缺失值占比情况进行填充 3.画图查看分布 4.根据业务进行具体分析 ...
2020-06-23 09:26:57
160
原创 第五章-合并
问题 【问题一】 请思考什么是append/assign/combine/update/concat/merge/join各自最适合使用的场景,并举出相应的例子。 append:添加一行数据 s = pd.Series({'Gender':'F','Heighe':188},name = 'new_row') df.append(s) assign:添加一列数据 s = pd.Series(li...
2020-04-30 23:48:46
288
原创 第四章-变形
问题 【问题一】 上面提到了许多变形函数,如melt/crosstab/pivot/pivot_table/stack/unstack函数,请总结它们各自的使用特点。 【问题二】 变形函数和多级索引是什么关系?哪些变形函数会使得索引维数变化?具体如何变化? 【问题三】 请举出一个除了上文提过的关于哑变量方法的例子。 【问题四】 使用完stack后立即使用unstack一定能保证变化结果与原始表完全...
2020-04-28 23:27:07
214
原创 第3章 分组
groupby函数 分组函数的基本内容: 根据某一列分组 根据某几列分组 组容量与组数 组的遍历 for name,group in grouped_single: print(name) display(group.head()) level参数(用于多级索引)和axis参数 df.set_index(['Gender','School']).groupby(level=1,a...
2020-04-26 23:43:07
315
原创 Pandas索引-第二次打卡
索引 单级索引 loc方法、iloc方法、[]操作符 loc方法 df.loc[1102] df.loc[[1102,2304]] df.loc[1304:].head() df.loc[2402::-1].head() df.loc[:,'Height'].head() df.loc[1102:2401:3,'Height':'Math'].head()#联合索引 df.loc[lambda x...
2020-04-23 23:58:10
232
原创 Pandas基础——第一次打卡
目前pandas最新版本1.0.3 文件读取和写入 读取 pandas 能读取csv ,txt ,xls或者xls格式的文件。 写入 pandas 能写入csv ,xls或者xls格式的文件。 基本数据结构 Series 对于一个Series,其中最常用的属性为值(values),索引(index),名字(name),类型(dtype) DataFrame 就是表 常用基本函数 head和tai、...
2020-04-20 23:53:53
240
原创 模型融合-学习笔记
模型融合 是最后的冲刺手段,可以一定程度的提高线上分数 简单加权融合 回归题一般是将不同模型的结果进行加权,多次尝试后找到最优的权重。 分布问题就是投票,按照不同的权重尝试,找到最优结果。 推荐问题的加权融合我是真不会。 stacking/blending stacking:当初始训练数据学习出若干个基学习器后,将这几个学习器的预测结果作为新的训练集,来学习一个新的学习器。 boosting/b...
2020-04-04 21:54:19
311
原创 建模调参
建模调参建模调参模型性能验证模型调参 建模调参 模型性能验证 模型验证的一个重要目的是要选出一个最合适的模型,对于监督学习而言,我们希望模型对于未知数据的泛化能力强,所以就需要模型验证这一过程来体现不同的模型对于未知数据的表现效果。 测试准确度的一个缺点是其样本准确度是一个高方差估计(high variance estimate),所以该样本准确度会依赖不同的测试集,其表现效果不尽相同。 5折交叉...
2020-04-01 22:00:27
174
原创 特征工程-学习笔记
特征工程-学习笔记异常值处理通过箱线图(或 3-Sigma)分析删除异常值BOX-COX 转换(处理有偏分布)长尾截断特征归一化/标准化标准化(转换为标准正态分布)归一化(转换到 [0,1] 区间)针对幂律分布,可以采用公式:数据分桶等频分桶等距分桶Best-KS 分桶(类似利用基尼指数进行二分类)卡方分桶缺失值处理不处理删除(缺失数据太多)插值补全分箱,缺失值一个箱特征构造特征筛选降维 特征工程...
2020-03-28 22:02:02
290
原创 EDA-数据探索性分析
EDA-数据探索性分析EDA-数据探索性分析数据读取数据缺失和异常训练集与测试集的分布查看类别特征和数字特征 EDA-数据探索性分析 EDA的价值在于熟悉数据集,了解变量之间的关系以及变量与预测值之间的关系,为下一步的特征工程做准备,此次的目标就是做过baseline。 数据读取 用pandas读取后,发现regDate和creatDate看似都为同样的日期格式,但是用 pd.to_datetim...
2020-03-24 21:58:55
477
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅