
数据挖掘笔记
文章平均质量分 54
Helianthus Lee
这个作者很懒,什么都没留下…
展开
-
心跳信号预测--Task5
模型融合1.简单加权融合:(1)回归(分类概率):简单加权平均,结果直接融合。还有一些特殊的形式,比如mean平均,median平均。stacking 融合,对于第二层Stacking的模型不宜选取的过于复杂,这样会导致模型在训练集上过拟合,从而使得在测试集上并不能达到很好的效果。(2)分类:投票(Voting)Voting即投票机制,分为软投票和硬投票两种,其原理采用少数服从多数的思想。(3)综合:排序融合(Rank averaging),log融合2.stacking/ble原创 2021-03-29 00:28:33 · 225 阅读 · 0 评论 -
心跳信号预测--task4
建模与调参:1相关模型:逻辑回归模型决策树模型GBDT模型XGBoost模型LightGBM模型Catboost模型时间序列模型2模型调参:贪心调参网格搜索贝叶斯调参模型调参小总结集成模型内置的cv函数可以较快的进行单一参数的调节,一般可以用来优先确定树模型的迭代次数数据量较大的时候(例如本次项目的数据),网格搜索调参会特别特别慢,不建议尝试集成模型中原生库和sklearn下的库部分参数不一致,需要注意,具体可以参考xgb和lgb的官方API...原创 2021-03-26 01:05:30 · 169 阅读 · 0 评论 -
心跳信号预测--task3
特征工程:1.数据预处理(1) 对心电特征(时间序列特征)进行行转列处理,同时为每个心电信号加入时间步特征time(2)将处理后的心电特征加入到训练数据中,同时将训练数据label列单独存储2.特征工程(1)使用 tsfresh 进行时间序列特征构造特征抽取 Tsfresh(TimeSeries Fresh)是一个Python第三方工具包。 它可以自动计算大量的时间序列数据的特征。此外,该包还包含了特征重要性评估、特征选择的方法,因此,不管是基于时序数据的分类问题还是回归问题,tsfresh都会原创 2021-03-22 23:29:00 · 199 阅读 · 0 评论 -
心跳信号分类预测--task1
basiline:导入第三方包读取数据数据预处理训练数据/测试数据准备模型训练提交截图:原创 2021-03-16 22:50:13 · 167 阅读 · 0 评论 -
早高峰共享单车潮汐点的群智优化--task1
结果展示:在跑baseline的时候遇到了部分库import报错的问题。解决方法,参考了https://blog.youkuaiyun.com/Jinlong_Xu/article/details/73822759原创 2021-02-20 01:24:04 · 224 阅读 · 0 评论 -
作者信息关联-5
作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;1 数据处理步骤将作者列表进行处理,并完成统计。具体步骤如下:将论文第一作者与其他作者(论文非第一作者)构建图;使用图算法统计图中作者与其他作者的联系;2 社交网络分析图是复杂网络研究中的一个重要概念。Graph是用点和线来刻画离散事物集合中的每对事物间以某种方式相联系的数学模型。Graph在现实世界中随处可见,如交通运输图、旅游图、流程图等。利用图可以描述现实生活中的许多事物,如用点可以表示交叉口,点之间的连线表示路径,原创 2021-01-25 21:51:20 · 179 阅读 · 0 评论 -
论文种类分类-4
论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类学会文本分类的基本方法、TF-IDF等;1 数据处理步骤在原始arxiv论文中论文都有对应的类别,而论文类别是作者填写的。在本次任务中我们可以借助论文的标题和摘要完成:对论文标题和摘要进行处理;对论文类别进行处理;构建文本分类模型;2 文本分类思路思路1:TF-IDF+机器学习分类器直接使用TF-IDF对文本提取特征,使用分类器进行分类,分类器的选择上可以使用SVM、LR、XGboost等思路2:FastTextFastT原创 2021-01-22 23:06:16 · 377 阅读 · 0 评论 -
论文代码统计-3
任务:论文代码统计,统计所有论文出现代码的相关统计。1 数据处理步骤在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接,所以我们需要从这些字段里面找出代码的链接。1)确定数据出现的位置;2)使用正则表达式完成匹配;3)完成相关的统计;2 正则表达式正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。普通字符:原创 2021-01-19 23:47:10 · 182 阅读 · 0 评论 -
TASK2:论文作者统计
论文作者统计,统计所有论文作者出现评率Top10的姓名1 数据处理步骤在原始arxiv数据集中论文作者authors字段是一个字符串格式,其中每个作者使用逗号进行分隔分,所以需要完成以下步骤:使用逗号对作者进行切分;剔除单个作者中非常规的字符;2 字符串处理在Python中字符串是最常用的数据类型,可以使用引号('或")来创建字符串。Python中所有的字符都使用字符串存储,可以使用方括号来截取字符串,如下实例:In [1]:var1 = 'Hello Datawhale!'var2 =原创 2021-01-17 00:24:12 · 290 阅读 · 0 评论 -
论文数据分析-1
论文数量统计:即统计2019年全年计算机各个方向论文数量。1.数据集介绍id:arXiv ID,可用于访问论文;submitter:论文提交者;authors:论文作者;title:论文标题;comments:论文页数和图表等其他信息;journal-ref:论文发表的期刊的信息;doi:数字对象标识符,https://www.doi.org;report-no:报告编号;categories:论文在 arXiv 系统的所属类别或标签;license:文章的许可证;abstract:原创 2021-01-14 02:13:59 · 652 阅读 · 1 评论