- 博客(8)
- 收藏
- 关注
原创 利用Excel分析链家二手房数据
Excel分析链家二手房数据首先导入数据:可以从工具点击“数据”选项卡–>获取外部数据–>选择“自文本”选项然后根据文本的特征选择相应的格式就行了观察一下数据集,数据大体详情如下:由于特征名看起来有点乱,可以将数据调成自己习惯观察的顺序,这里就不贴出具体操作了:数据集一共有23677条数据,其中Elevator(电梯)特征有明显的缺失值在Excel里有个快速填充缺失值...
2019-04-22 20:54:33
4663
9
原创 共享单车项目分析
共享单车项目分析报告目录一、分析背景与目的二、分析思路三、分析正文1、租赁数量分析2、用户群体分析3、租赁影响因素分析4、时间序列分析四、总结与建议分析背景与目的:经过几年的发展,共享单车越来越受到了人们的追捧,成为了大多数人外出必不可少的出行工具,城市街道上随处可见的共享单车成为了一个 城市快速发展中的一道靓丽的风景线;在共享单车快速发展的的同时,接踵而至的是竞争地不...
2019-04-20 15:24:51
4810
1
原创 基于贝叶斯算法之新闻分类
数据源:http://www.sogou.com/labs/resource/ca.php数据源是一个搜狗新闻数据集,里面包含新闻的种类、主题、URL与内容,现在需要将新闻的内容进行清洗、去掉杂乱的字符串,并实现关键词提取、构造关键词云图,最后将整合后的内容进行分类。首先导入数据:import pandas as pdimport numpy as npimport jiebaimpo...
2019-03-25 23:32:55
2945
6
原创 用户画像
基于用户搜索关键词数据为用户打上标签(年龄,性别,学历)整体流程(一)数据预处理编码方式转换对数据搜索内容进行分词词性过滤数据检查(二)特征选择建立word2vec词向量模型对所有搜索数据求平均向量(三)建模预测不同机器学习模型对比堆叠模型将原始数据转换成utf-8编码,防止后续出现各种编码问题import csvdef code_coversion(f...
2019-03-24 13:56:42
1955
3
原创 保险赔偿预测
直接导入相关的库import xgboost as xgbimport pandas as pdimport numpy as npimport pickleimport sysimport matplotlib.pyplot as pltfrom sklearn.metrics import mean_absolute_error, make_scorerfrom sklearn...
2019-03-23 19:59:13
1602
2
原创 心脏病预测案例
背景心脏病是人类健康的头号杀手。全世界1/3的人口死亡是心脏病引起的。而我国,每年有几十万人死于心脏病。如果可以通过提取人体相关的体测指标,通过数据挖掘方式来分析不同特征对于心脏病的影响,将对预防心脏病起到至关重要的作用。本文提供真实的数据,并通过阿里云机器学习平台搭建心脏病预测案例。数据集介绍数据源为UCI开源数据集heart_disease。包含了303条美国某区域的心脏病检查患者...
2019-03-22 20:36:59
8716
11
原创 机器学习实战之信用卡欺诈案列
信用卡逾期数据挖掘项目简介导入数据首先进行数据预处理对数据进行下采样处理:开始进行训练绘制混淆矩阵调优保存模型项目简介使用信用卡是普遍的当今社会。信用卡诈骗案检测是一项艰巨的任务,信用卡诈骗罪的侦查无论在学术或商业都极为重要。该项目利用已有信用卡用户的数据进行训练,建立一个检测模型,以此来检测信用卡用户是否为异常用户。导入数据import pandas as pdimport matp...
2019-03-17 14:34:39
847
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人