
大数据
文章平均质量分 87
大数据分析与数据挖掘
CHRN晨
如今你的气质里,藏着你走过的路,读过的书和你爱过的人。
展开
-
【Python数据分析实战】豆瓣读书分析(含代码和数据集)
@[TOC]豆瓣一.导入数据二.数据清洗2.1清理null值2.2清洗出版时间列2.3转换评分及平均数量的数据类型2.4清洗页数列2.5清洗价格列2.6去除书名重复的数据2.7哪个出版社的书籍评分较高?2.8哪些书值得一读?2.9作者排名(10部作品及以上)三.数据分析与可视化3.1各年作品出版数量折线图3.2各价位作品数量直方图3.3各出版社出版作品数量条形图&评分折线图3.4作者作品评分条形图3.5作品评分树状图...原创 2021-12-29 18:05:36 · 16543 阅读 · 15 评论 -
Redis基本命令与操作汇总(侧重于代码)
@[TOC]redis启动:redis-cli --raw正常启动用redis-cli即可,加上–raw是为了能够显示中文1.Redis数据类型String(字符串SET命令)127.0.0.1:6379> SET test "字符串"OK127.0.0.1:6379> GET test字符串Hash(哈希HMSET命令)127.0.0.1:6379> DEL test1127.0.0.1:6379> HMSET test field1 "Hello" f转载 2021-12-28 21:10:19 · 599 阅读 · 0 评论 -
【数据分析与挖掘实战】B站影视区数据分析
一.分析目标与内容B站作为一个视频内容平台,具有广泛的受众,其数据具有巨大的分析价值。在本次数据分析项目中,分别从视频角度和up主角度对B站影视区数据集进行了分析,通过描述性统计,维度拆解,聚类等方式进行了较为全面的分析。在分析过程中,特别关注了原创或搬运这个特征,并发现了一些有趣的结论。二.数据来源链接:点击获取提取码:srtc三.数据导入与基本情况查看import numpy as npimport pandas as pdimport matplotlib.pyp原创 2021-12-22 16:16:40 · 7617 阅读 · 1 评论 -
pyecharts可视化BI数据大屏实战(含代码和数据集)
数据集和代码:链接:https://pan.baidu.com/s/1RAEOUwLjTVuVqSIa1P12kg提取码:191h原创 2021-12-14 10:56:59 · 3910 阅读 · 2 评论 -
【数据分析与挖掘实战】二手车价格预测1数据分析与特征构造详解(有数据集合代码)
一.题目概况数据集:点击下载根据给定的数据集,建立模型,二手汽车的交易价格。来自 Ebay Kleinanzeigen 报废的二手车,数量超过 370,000,包含 20 列变量信息,为了保证 比赛的公平性,将会从中抽取 10 万条作为训练集,5 万条作为测试集 A,5 万条作为测试集 B。同时会对名称、车辆类型、变速箱、model、燃油类型、品牌、公里数、价格等信息进行 脱敏。二.查看数据import pandas as pdimport numpy as nppath = './da原创 2021-12-12 21:28:40 · 5088 阅读 · 1 评论 -
【数据分析与挖掘实战】二手车价格预测3建模调参模型融合详解(有数据集合代码)
本题模型融合示例:数据集:链接:https://pan.baidu.com/s/1bbgT3bfNVcbQKEnpgBt4PQ提取码:au99import pandas as pdimport numpy as npimport warningsimport matplotlibimport matplotlib.pyplot as pltimport seaborn as snswarnings.filterwarnings('ignore')%matplotlib inline原创 2021-12-12 20:37:03 · 1405 阅读 · 0 评论 -
【数据分析与挖掘实战】二手车价格预测2建模调参模型融合详解(有数据集合代码)
四. 建模调参4.1读取数据reduce_mem_usage 函数通过调整数据类型,帮助我们减少数据在内存中占用的空间import pandas as pdimport numpy as npimport warningswarnings.filterwarnings('ignore')def reduce_mem_usage(df): """ iterate through all the columns of a dataframe and modify the data typ原创 2021-12-12 20:31:14 · 1037 阅读 · 0 评论 -
【数据分析与挖掘】基于Apriori算法的中医证型的关联规则挖掘(有数据集和代码)
中医药治疗乳腺癌有着广泛的适应证和独特的优势。从整体出发,调整机体气血、阴阳、脏腑功能的平衡,根据不同的临床证候进行辨证论治。确定“先证而治”的方向:即后续证侯尚未出现之前,需要截断恶化病情的哪些后续证侯。找出中医症状间的关联关系和诸多症状间的规律性,并且依据规则分析病因、预测病情发展以及为未来临床诊治提供有效借鉴。能够帮助乳腺癌患者手术后体质的恢复、生存质量的改善,有利于提高患者的生存机率。目前,中医治疗一般都是采用中医辨证的原则,结合临床医师的从医经验和医学指南进行诊断,然而此方法也存在一定原创 2021-12-12 15:37:56 · 5724 阅读 · 4 评论 -
【数据分析与挖掘】财政收入影响因素分析及预测模型(有数据集和代码)
案例背景在我国现行的分税制财政管理体制下,地方财政收人不仅是国家财政收入的重要组成部分,而且具有其相对独立的构成内容。如何有效的利用地方财政收入,合理的分配,来促进地方的发展,提高市民的收入和生活质量是每个地方政府需要考虑的首要问题。因此,对地方财政收人进行预测,不仅是必要的,而且也是可能的。科学、合理地预测地方财政收人,对于克服年度地方预算收支规模确定的随意性和盲目性,正确处理地方财政与经济的相互关系具有十分重要的意义。某市作为改革开放的前沿城市,其经济发展在全国经济中的地位举足轻重。目前,该市在财原创 2021-12-12 14:48:56 · 23935 阅读 · 10 评论 -
【数据分析与挖掘】天猫超市复购预测实战(含代码和数据集)
一.背景商家有时会在特定日期,例如Boxing-day,黑色星期五或是双十一(11月11日)开展大型促销活动或者发放优惠券以吸引消费者,然而很多被吸引来的买家都是一次性消费者,这些促销活动可能对销售业绩的增长并没有长远帮助,因此为解决这个问题,商家需要识别出哪类消费者可以转化为重复购买者。通过对这些潜在的忠诚客户进行定位,商家可以大大降低促销成本,提高投资回报率(Return on Investment, ROI)。众所周知的是,在线投放广告时精准定位客户是件比较难的事情,尤其是针对新消费者的定位。不过,原创 2021-12-09 17:32:46 · 24191 阅读 · 15 评论 -
【数据分析与挖掘实战】金融风控之贷款违约预测详解2(有代码和数据集)
本文接着上一篇博客,如果您未阅读上篇博客,请点击【数据分析与挖掘实战】金融风控之贷款违约预测详解1(有代码和数据集)七.建模和调参7.1模型相关原理介绍由于相关算法原理篇幅较长,本文推荐了一些博客供初学者们进行学习。7.1.1 逻辑回归模型7.1.2 决策树模型7.1.3GBDT模型7.1.4 XGBoost模型7.1.5 LightGBM模型7.1.6 Catboost模型7.2 模型对比与性能评估7.2.1逻辑回归优点训练速度较快,分类的时候,计算量仅仅只和特征的数目相关;原创 2021-12-09 12:09:30 · 3908 阅读 · 3 评论 -
【数据分析与挖掘实战】金融风控之贷款违约预测详解1(有代码和数据集)
金融风控一.题目理解1.1.题目概况1.2数据概况1.3预测指标二.数据来源三.查看数据四.分类指标计算示例4.1混淆矩阵4.2准确度4.3precision(精确度),recall(召回率),f1-score4.4P-R曲线4.5ROC曲线4.6AUC曲线4.7KS值五.数据分析5.1基本信息5.2查看数据集中特征缺失值,唯一值等5.3查看特征的数值类型有哪些,对象类型有哪些5.3.1数值连续型变量分析5.3.2非数值类别型变量分析5.3.3总结:5.4变量分布可视化5.4.1单一变量分布可视化更新中~原创 2021-12-08 21:10:05 · 13428 阅读 · 9 评论 -
【数据分析与挖掘】基于LightGBM,XGBoost,逻辑回归的分类预测实战:英雄联盟数据(有数据集和代码)
机器学习-LightGBM一.LightGBM的介绍与应用1.1 LightGBM的介绍1.2 LightGBM的应用二.数据集来源三.基于英雄联盟数据集的LightGBM分类实战Step1:函数库导入Step2:数据读取/载入Step3:数据信息简单查看Step4:可视化描述Step5:利用 LightGBM 进行训练与预测Step7: 利用 LightGBM 进行特征选择Step8: 通过调整参数获得更好的效果四.总结本次我们选择英雄联盟数据集进行LightGBM的场景体验。英雄联盟是2009年美国拳原创 2021-12-08 12:40:26 · 2640 阅读 · 0 评论 -
【数据分析与挖掘】基于LightGBM,XGBoost,逻辑回归的二分类/多分类的分类预测实战(有数据集和代码)
【机器学习】基于逻辑回归,LightGBM,XGBoost额的分类预测一.基于逻辑回归的分类预测1 逻辑回归的介绍和应用1.1 逻辑回归的介绍1.2逻辑回归的应用2.Demo实践**Step1:库函数导入****Step2:模型训练****Step3:模型参数查看****Step4:数据和模型可视化****Step5:模型预测**3.基于鸢尾花(iris)数据集的逻辑回归分类实践**Step1:库函数导入****Step2:数据读取/载入****Step3:数据信息简单查看**Step4:可视化描述Step原创 2021-12-08 12:22:09 · 6708 阅读 · 1 评论 -
【数据分析与挖掘】淘宝用户行为分析(带数据集和代码)
一.背景描述针对项目:淘宝用户分析使用。2014年是阿里巴巴集团移动电商业务快速发展的一年,例如2014双11大促中移动端成交占比达到42.6%,超过240亿元。相比PC时代,移动端网络的访问是随时随地的,具有更丰富的场景数据,比如用户的位置信息、用户访问的时间规律等。本次大赛以阿里巴巴移动电商平台的真实用户-商品行为数据为基础,同时提供移动时代特有的位置信息,而参赛队伍则需要通过大数据和算法构面向建移动电子商务的商品推荐模型。希望参赛队伍能够挖掘数据背后丰富的内涵,为移动用户在合适的时间、合适的地点精原创 2021-12-08 10:16:41 · 10694 阅读 · 2 评论 -
【数据分析系列】Python数据预处理总结篇
史上最全的Python数据分析预处理总结篇,不看后悔!!!原创 2021-12-06 17:45:10 · 13635 阅读 · 0 评论 -
【数据分析系列】数据特征分析详解
【数据分析系列】数据特征分析详解,有数据集和代码原创 2021-12-06 16:16:51 · 1030 阅读 · 0 评论 -
【数据分析与挖掘系列】基于基站定位数据的商圈分析(全数据集和代码)
数据集:分享资料提取码:au99案例背景随着当今个人手机终端的普及,出行群体中手机拥有率和使用率已达到相当高的比例,手机移动网络也基本实现了城乡空间区域的全覆盖。根据手机信号在真实地理空间上的覆盖情况,将手机用户时间序列的手机定位数据,映射至现实的地理空间位置,即可完整、客观地还原出手机用户的现实活动轨迹,从而挖掘得到人口空间分布与活动联系特征信息。移动通信网络的信号覆盖从逻辑上被设计成由若干六边形的基站小区相互邻接而构成的蜂窝网络面状服务区,手机终端总是与其中某一个基站小区保持联系,移动通信网络的原创 2021-12-06 10:52:53 · 4090 阅读 · 5 评论 -
【数据分析与挖掘实战】电信用户流失分析与预测
背景关于用户留存有这样一个观点,如果将用户流失率降低5%,公司利润将提升25%-85%。如今高居不下的获客成本让电信运营商遭遇“天花板”,甚至陷入获客难的窘境。随着市场饱和度上升,电信运营商亟待解决增加用户黏性,延长用户生命周期的问题。因此,电信用户流失分析与预测至关重要。数据集来自kesci中的“电信运营商客户数据集”数据集:添加链接描述本文将从以下方面进行分析:1.背景2.提出问题3.理解数据4.数据清洗5.可视化分析6.用户流失预测7.结论和建议提出问题1.分析用户特征与流失原创 2021-12-05 21:47:35 · 15645 阅读 · 4 评论 -
Matplotlib 最具价值的20个可视化项目
matplotlib最具价值的20个可视化项目,看完这篇就够了!原创 2021-12-05 21:26:15 · 654 阅读 · 0 评论 -
【数据分析与挖掘实战】航空公司客户价值分析
1.案例背景二八定律: 20%的客户,为企业带来约80%的利益。在企业的客户关系管理中,对客户分类,区分不同价值的客户。针对不同价值的客户提供个性化服务方案,采取不同营销策略,将有限营销资源集中于高价值客户,实现企业利润最大化目标。在竞争激烈的航空市场里,很多航空公司都推出了优惠的营销方式来吸引更多的客户。在此种环境下,如何将公司有限的资源充分利用,提示企业竞争力,为企业带来更多的利益。2.传统方法存在的缺陷广泛用于分析客户价值的是RFM模型,它是通过三个指标(最近消费时间间隔(Recency原创 2021-12-05 17:40:23 · 9729 阅读 · 4 评论 -
【数据挖掘之关联规则实战】关联规则智能推荐算法
[数据挖掘之关联规则实战】关联规则智能推荐算法原创 2021-12-04 16:05:54 · 3507 阅读 · 3 评论 -
【数据挖掘时间序列分析】餐厅销量预测
【数据挖掘时间序列分析】基于ARIMA模型的餐厅销量预测原创 2021-12-04 13:34:27 · 2778 阅读 · 0 评论 -
数据挖掘与Python实战之数值预测
1.线性回归1.1简单例子from sklearn import linear_modelx=[[0,0],[1,1],[2,2]]y=[0,1,2]reg=linear_model.LinearRegression()reg.fit(x,y)print(reg.predict([[3,3]]))1.2糖尿病数据集import matplotlib.pyplot as pltimport numpy as np#导入数据集包与回归模型需要的包from sklearn impor原创 2021-12-04 11:11:48 · 2150 阅读 · 0 评论