
数据挖掘
青木长风
人生如逆旅,且歌且叹,随遇而安。
csu-cs-17级
展开
-
kaggle泰坦尼克比赛总结
泰坦尼克数据挖掘比赛是kaggle上的新手入门赛,作为一个基础还没打好的菜鸡强行敲了一波代码,但是大部分还是跟着别人的思路,看着别人的代码写的。因此代码就不放了,放了跟搬运没啥区别。单纯总结一下学习感悟吧。做数据挖掘的第一步就是读取数据之后进行分析和预处理。所要用到的python 库有pandas,numpy,matplotlib,seaborn...1.读取数据之后先统计一下缺失值情况。...原创 2019-04-07 17:21:19 · 388 阅读 · 0 评论 -
第一场数据挖掘比赛的一些经验心得
本篇文章主要介绍内容:数据去噪,采样,特征工程数据去噪:无论是数据挖掘的比赛也好,还是日常生活中的各种项目也好,我们拿到手的数据集含有噪声数据是很正常的。噪声会降低我们的数据质量,从而影响我们模型的效果。因此,对噪声的处理是必须的,这一点是众所周知的事情。但是,在去噪的过程中我们也要注意以下问题。在我们这些天做的一个比赛上,一个队友,拿着没有好好处理噪音的数据集却误打误撞跑出了最高的分数,这...原创 2019-05-17 09:34:44 · 719 阅读 · 0 评论 -
文本分析入门(二)
还是先上新概念。分词我们在做文本挖掘的时候,要对文本做的预处理首先就是分词。对于英文来说,因此单词之间天然有空格隔开,因此可以按照空格分词(但也有需要把多个单词做成一个分词的时候)。而对于中文来说,由于没有空格,那么分词就变成了一个需要专门去处理去解决的问题。我们现在的分词都是基于统计来分词。对于一个良好的分词系统来说应该由词典和统计两套系统组成。统计,是为了给词典不断可持续地更新,不断加入...原创 2019-05-12 10:03:54 · 418 阅读 · 0 评论 -
数据挖掘竞赛之后处理
最近开始入坑数据挖掘比赛,总是听圈内大佬们提到后处理涨分。我就一直很疑惑,一直都是数据预处理,怎么又冒出来一个后处理。在网上学习了之后,决定写一篇文章总结一下。就我目前学习到的数据挖掘的流程来说,一般拿到数据之后先进行数据的分析,清洗工作,比如去除离群点,填充缺失的数据。然后对数据进行处理,比如将object转成categorical类型,把房子的x室y厅z卫分成xyz三个属性…做特征写...原创 2019-05-12 00:37:20 · 574 阅读 · 0 评论 -
文本分析入门(一)
今天在图书馆查了不少资料,感觉没什么特别好的学习途径。主要通过博客,李航的《统计学习方法》,相关比赛代码来学习。首先还是介绍几个名词,一个新领域总是有很多新名词。Tokenization:将文本转化为tokens的过程Tokens:在文本里的展示的单词或实体Text object:一个句子、短语、单词或文章文本分析也好,平时做的数据挖掘也好,开始都是需要数据预处理。文...原创 2019-05-07 15:37:42 · 3459 阅读 · 0 评论 -
文本分析入门(三)
https://zhuanlan.zhihu.com/p/65481094原创 2019-05-14 15:28:18 · 325 阅读 · 0 评论 -
TFIDF文本分析
TF-IDF是一种文本特征提取统计算法。什么是词频?词频(TF)即一个词语在文本中出现的频率。文本总数(D):所搜集的所有文本数。含关键词的文本数(Dw):含有某个词(关键字)的文本数目。公式:TF-IDF(w)=TF(w)*IDF(w)TF(w)=w在所有文件中出现的次数/该文件的总词数。IDF(w)=log(D/(Dw+1))//+1避免分母为0IDF的作用:降低具有普遍性...原创 2019-05-06 23:58:58 · 1728 阅读 · 0 评论 -
未来杯 城市-房产租金预测开源baseline
昨天跟队友开源了一份线上0.85的baseline,发在我们的知乎专栏里了。知乎地址:https://zhuanlan.zhihu.com/p/64715267github地址:https://github.com/leo6033/future-AI-challenge下面贴一下baseline的主要代码部分:def parseData(df): """ 预处理数据 ...原创 2019-05-06 12:06:55 · 1432 阅读 · 0 评论 -
KNN实现手写数字识别(代码读懂后复现)
首先感谢https://blog.youkuaiyun.com/u012162613/article/details/41768407的分享!所谓KNN就是对那个你要预测的点,找出其k个邻居,也就是距离他最近的k个点,这k个样本中出现频率最高的类别即作为测试样本的类别。那么,这个距离一般用什么来计算呢?一般有欧式距离、标准化欧式距离、马氏距离、余弦距离。这里我们采用欧式距离:即N维欧氏空间中两点x1...原创 2019-04-19 20:40:25 · 792 阅读 · 0 评论 -
LR回归复现
参考https://www.cnblogs.com/csu-lmw/p/10661475.html代码目前还有bug未修复from math import expimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.datasets import load_irisfrom ...原创 2019-04-14 11:32:02 · 158 阅读 · 0 评论 -
用cross_val_score对鸢尾花数据集进行交叉验证
from sklearn import datasets#自带的数据集from sklearn.model_selection import train_test_split,cross_val_scorefrom sklearn.neighbors import KNeighborsClassifierimport matplotlib.pyplot as pltiris=dataset...原创 2019-04-13 19:32:29 · 1408 阅读 · 0 评论 -
天池工业蒸汽比赛代码复现,采用模型LR+GBR,并融合
import numpy as npimport pandas as pdfrom sklearn.metrics import mean_squared_errorfrom sklearn.model_selection import train_test_splitfrom sklearn import linear_modelfrom sklearn.ensemble import...原创 2019-04-13 19:26:20 · 728 阅读 · 0 评论 -
ID3决策树算法实现
首先对于ID3决策树我通过看书理解了其思想。然后经过鱼佬的文章之后我学习了其算法实现。感觉对代码的理解还是不够,很多地方还是没弄懂,要继续努力!首先使用数据集age,work,hourse,loan,class青年,否,否,一般,否青年,否,否,好,否青年,是,否,好,是青年,是,是,一般,是青年,否,否,一般,否中年,否,否,一般,否中年,否,否,好,否中年,是,是,好,...原创 2019-04-09 11:17:18 · 293 阅读 · 0 评论