
项目实战
急着吃饭的李先生
苟全性命于乱世,不求闻达于诸侯。
展开
-
基于RFM和K-Means的用户分群
在本项目中,我们基于用户购买数据(Transaction Data)做用户的分群,使用的方法一次是RFM模型和K-means算法。原创 2019-11-30 17:21:38 · 1377 阅读 · 2 评论 -
广告点击率预测(kaggle)
这个项目的主要的目的是通过给定的广告信息和用户信息来预测一个广告被点击与否。 如果广告有很大概率被点击就展示广告,如果概率低,就不展示。 因为如果广告没有被点击,对双方(广告主、平台)来讲都没有好处。所以预测这个概率非常重要,也是此项目的目标。原创 2019-11-29 07:14:01 · 7104 阅读 · 8 评论 -
基于KNN的二手车价格预测
假如我们知道一个人目前收入和工作年限,并预测跳槽之后的薪资。这时候,预测目标为数值型变量。找到最近的ķ样本之后,直接取平均作为预测值即可接下来的实操案例的目的是基于二手车辆的状况来估计它的实际市场价格。import pandas as pdimport matplotlib.pyplot as pltimport numpy as npimport seaborn as sns# 读...原创 2019-09-24 20:31:48 · 1687 阅读 · 8 评论 -
基于集成模型的股价预测
在本次项目中我主要以技术指标(technical indicator)作为特征。每个技术指标的提取都是通过长期的经验而获得的,而且持续有人提出更新的指标。可以参考一下网上的一些资料:http://www.yingjia360.com/gongshi/,里面有每个指标的大概思想以及指标的计算公式。所以呢,针对于每一只股票,我们可以基于它过去一段时间的行情数据来计算各式各样的指标,然后把指标结果...原创 2019-10-20 09:08:21 · 582 阅读 · 0 评论 -
kaggle小项目-员工离职预测
数据来源与背景数据来源:https://www.kaggle.com/jiangzuo/hr-comma-sep/version/1数据背景: 该数据集是指某公司员工的离职数据, 其包含14999个样本以及10个特征, 这10个特征分别为: 员工对公司满意度, 最新考核评估, 项目数, 平均每月工作时长, 工作年限, 是否出现工作事故, 是否离职, 过去5年是否升职, 岗位, 薪资水平.im...原创 2019-10-17 19:32:19 · 1879 阅读 · 0 评论 -
基于多项式贝叶斯的垃圾短信识别
import pandas as pdimport numpy as npimport matplotlib.pyplot as plt%matplotlib inline# 读取文件df = pd.read_table("./SMSSpamCollection",header=None)df.head()每一列都是一个特征值(文件随便搜垃圾短信数据集都能下载得到)# 重命名...原创 2019-10-13 12:26:08 · 381 阅读 · 0 评论 -
信贷数据分析及贷前风险评估建模
场景解析首先我到lengdingclub公司官网下载了2017年4个季度的贷款数据,18,19年的数据没有下载(后面会有解释)数据获取地址:https://www.lendingclub.com/info/download-data.action...原创 2019-09-05 21:12:59 · 9203 阅读 · 7 评论 -
信用卡欺诈检测模型
拿到的数据是持卡人两天内的信用卡交易数据,要解决的问题是预测持卡人是否会发生信用卡被盗刷.其结果只有两种可能,被盗刷或者不被盗刷,这份数据是有目标列的,也就是说这是一个监督学习的场景,并且是一个二元分类问题,所以本项目可以选用逻辑斯蒂回归(Logistic Regression)。原创 2019-10-28 21:34:09 · 3089 阅读 · 0 评论 -
搭建基于K近邻的图像识别系统
一 图像识别背景知识1.1 图像识别任务描述图像识别的应用场景特别多,比如人脸识别、物体识别、监控视频里的异常检测、无人驾驶等,其核心技术都来自于图像识别。目前对于图像识别任务,最有效的方法是使用深度学习,比如卷积神经网络。但实际上,我们也可以通过其他简单的算法如KNN来识别图片,只不过比起卷积神经网络效果会差一些。图像本身是一个非结构化的数据,而且非结构化数据本身是不能直接用来做模型输入...原创 2019-09-21 21:39:45 · 1150 阅读 · 7 评论