
数据分析
文章平均质量分 80
浪漫的数据分析
这个作者很懒,什么都没留下…
展开
-
CatBoost 和 Light GBM 和 XGBoost 使用GPU训练对比
Kaggle比赛各种增强算法,CatBoost 和 Light GBM 和 XGBoost每种算法处理类别变量了解参数在数据集上实现每种算法的性能原创 2022-07-11 17:05:08 · 6274 阅读 · 0 评论 -
随机森林做特征重要性排序和特征选择
随机森林模型介绍:随机森林模型不仅在预测问题上有着广泛的应用,在特征选择中也有常用。随机森林是以决策树为基学习器的集成学习算法。随机森林非常简单,易于实现,计算开销也很小,更令人惊奇的是它在分类和回归上表现出了十分惊人的性能。随机森林模型在拟合数据后,会对数据属性列,有一个变量重要性的度量,在sklearn中即为随机森林模型的 feature_importances_ 参数,这个参数返回一个numpy数组对象,对应为随机森林模型认为训练特征的重要程度,float类型,和为1,特征重要性度数组中,数值越原创 2022-02-24 16:56:10 · 60614 阅读 · 14 评论 -
python字典排序及字典集合去重高阶教程
学习目标:字典dict排序:指定按照key排序或values排序。对字典或者list去除重复元素。学习内容:提示:准备dicta ={'a':1,'b':2,'d':7,'c':23,'m':21,'f':4}1、字典dict按key排序,升序或降序按照字典的key排序:dicta_sorted = sorted(dicta.items(),key=lambda x :x[0])print(dicta_sorted)输出结果:[('a', 1), ('b', 2), ('c',原创 2021-06-26 17:18:43 · 1293 阅读 · 0 评论 -
python使用redis教程 敲黑板划重点
目标:学会使用redis,使用python代码又非常简洁。划重点:原来这货就这点知识。并不难。原文教程太冗余了:详细教程# win7安装redis:win7首先下载客户端:提取码1234然后解压,运行文件夹中的以下服务端和客户端:然后在python终端或者anaconda终端,输入:pip install redis安装redis。当服务端出现以下界面,说明服务端已经启动了。端口号为6379.1、 搭建 好 开发环境,就可以掌握以下知识就够了。连接池连接redis:redis使用原创 2021-04-10 13:19:46 · 640 阅读 · 8 评论 -
数据分析工具:使用tableau工具画深圳二手房参考价的统计图
目标:学习使用tableau进行一些常规图的绘制。数据是商品通过python转换得到的深圳市二手房官方指导价,下载链接:下载链接和提取码1234学习内容:进行常规的统计信息的揭示,操作tableau,感觉tableau和excel差不多。分组图把行政区放在列,项目名称放在行,右键项目名称,选择度量–计数。同时在图像左侧颜色区,把项目名称拖过去,然后右键,选择度量–计数。选一个颜色版式,反转。均价对比:1、把成交参考价从字符变成数字,右键成交参考价格,转换数据类型–整数。然后再右下角创原创 2021-03-21 14:40:18 · 1452 阅读 · 1 评论 -
数据挖掘基础之数据清洗:用python把“深圳二手房参考价”PDF保存为EXCEL
坑DIE的住建局再一次不限富豪限刚需,公布了深圳市住宅小区二手住房成交参考价格,买房更难,首付更难凑。。。数据挖掘基础之数据清理:用python把深圳二手房参考价PDF保存为EXCEL,以便其他分析工具可以基于此excel做统计分析和画图,比如tableau。文章目录前言一、明确目标二、使用步骤1.事前处理2.读入数据总结前言本文学习机器学习机器学习的基础内容:数据清洗。结合实际生活场景,提升学习乐趣。深圳住建局再一次不限富豪限刚需,公布了深圳市住宅小区二手住房成交参考价格,该价格以PDF的形原创 2021-03-19 23:41:34 · 1127 阅读 · 2 评论 -
线性模型LN、单神经网络SNN、深度神经网络DNN与CNN测试对比
上篇提到的卷积神经网络对手写数字的识别,识别率为99.15%,作为对比,我们对比一下线性模型LN、单神经网络SN、深度神经网络DNN对相同的测试数据进行模拟,才能看到卷积神经网络的强大。测试结果如下:模型名称正确率卷积神经网络99.15%线性模型31.32%单神经元模型92.49%深度神经网络96.97%结论和分析:卷积神经网络在图像处理领域无人能敌。模型名称分析原因线性模型只能划分线性问题,非线性问题无能为力单神经元模型原创 2021-03-18 23:59:10 · 1677 阅读 · 0 评论 -
卷积神经网络(CNN)详解及TensorFlow2代码实现
卷积神经网络名字听着挺吓人,本文用通俗易懂的方式解释。人人都能看懂。文章目录卷积是什么一、卷积神经网络介绍卷积层--提取局部图片特征扩充--padding,保持卷积后图片的长和宽保持不变池化层---降低维度,降低模型复杂度和计算量全连接层--输出结果二、TensorFlow2代码实现1.导入数据2.用TensorFlow2构建一个CNN网络总结卷积是什么卷积神经网络就是传统神经网络运用了矩阵卷积的技术。二维线性卷积:矩阵举例:(摘抄自)现在有一张图片 f(x,y) 和一个kernel核原创 2021-03-18 17:04:37 · 9437 阅读 · 1 评论 -
数据挖掘的11大算法及python实现(个人笔记整理,非教学用)
分类算法:C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CARTl 。聚类算法:K-Means,EMl 。关联分析:Aprioril 。连接分析:PageRank文章目录前言一、C4.5 算法二、SVM 算法三、KNN算法四、AdaBoost算法五、CART算法六、Apriori算法七、K-Means算法八、朴素贝叶斯(Naive Bayes)算法九、EM算法十、PageRank算法二、使用步骤1.引入库2.读入数据总结前言国际权威的学术组织 ICDM (the原创 2021-03-05 19:19:43 · 17265 阅读 · 1 评论 -
python多进程与多线程实验
本篇前部分转载自:python是单线程的,多线程有意义么后半部分自己写。经常遇到小伙伴提到python是单线程的,写代码的时候用多线程没有意义,今天与大家分享一下关于python的单线程与多线程、多进程相关理解。首先 python是单线程的 这句话是不对的。这里要提到一个概念:Python的全局解释器锁(GIL)GIL是什么需要明确的一点是GIL并不是Python的特性,它是在实现Python解析器(CPython)时所引入的一个概念。就好比C++是一套语言(语法)标准,但是可以用不同的编原创 2021-02-22 10:21:09 · 551 阅读 · 1 评论 -
网络爬虫2:抓取网易云音乐评论用户ID及主页地址
本文目标:上篇我们获得了热门歌手歌曲的ID和URL地址。本篇进一步获取评论用户ID及主页地址。终极目标:1、通过热门歌手,抓取歌曲ID。2、通过歌曲ID,抓取评论用户ID。3、通过评论用户ID,发送定向推送消息。上一篇完成了步骤1,本文完成步骤2。题外话:上篇用的requests无页面的方法获取歌曲ID,速度比较快,但是获取到2000条左右就会被服务器识别成爬虫而被禁IP,通过连接手机热点,重启飞行模式后再连接就又可以获取2000条。上篇我们用MYSQL存储爬取结果,本次也将使用相同方法原创 2021-02-19 18:08:37 · 3186 阅读 · 2 评论 -
时间序列分析源资料汇总
时间序列分析在GitHub上有个专题,这里给出地址便于以后学习:时间序列分析总体介绍:Time Series analysis tsaSTL 分解介绍:STLDecompose后续陆续补充。转载 2021-01-27 14:42:38 · 442 阅读 · 0 评论 -
时间序列分析之:傅里叶变换找周期
时间序列分析万万没想到吧,信号处理的技术,能用在数据分析中。谁叫我是学通信出生的呢?承接上一篇:函数分解本节承接上文找函数的周期。文章目录时间序列分析傅里叶变换一、傅里叶变换(FFT)是什么?二、使用步骤1.新建FFT函数2.测试函数总结傅里叶变换通信专业的我,看到找周期时,不由自主想起了傅里叶变换。傅里叶变换就是把时域上的信号,变换到频域上,用很多个正弦波来合成时域信号。所以,我们找信号幅度最大的那个正弦波的频率,作为函数的周期。傅里叶变换最详细的介绍见这个文:详细得令人发指一、原创 2021-01-27 11:10:18 · 30476 阅读 · 22 评论 -
时间序列分析之:函数分解decompose
时间序列分析——函数分解第一篇 函数分解函数分解decompose文章目录时间序列分析——函数分解前言一、函数分解是什么?二、建立分解函数1.功能2.测试函数总结前言这几天一直在深思,如何建立一个和实际比较贴切的金融模型,能反映现实生活?比如我们听到国家又放水了,我们可以预期物价又得上涨了,但是如何通过模型来反映这种相关关系呢?伙伴杨RC说用EXCEL建了个模型来预测本期深圳车牌竞价,以达到最小的成本拍到车牌,这个想法不错,Good lucky to my brother。简单的模型可原创 2021-01-26 12:18:56 · 14942 阅读 · 3 评论 -
Python重现创业板指数行情
目标:画指数最近有个奇怪的现象:大盘涨有些指数不涨,大盘跌指数基金更迭,有同事怀疑是不是指数有问题,所以我们就自己动手画一个指数。这次选取创业板来画,因为股票数量少,比较适合学习。学习内容:指数有一套标准的计算公式,深圳创业板的指数计算公式网站公布有,还可以下载PDF和excel,告诉你成分股和权重,而且每半年优胜劣汰一次,进行一次调整,可能指数基金没有这么快调整过来,所以跟踪应该有偏差。网站地址如下:下载成分股excel指数计算公式不过这里有个疑问一直没解开:价格可以按照公式折合计算,但原创 2021-01-17 00:54:53 · 720 阅读 · 5 评论 -
你真的认真想过了吗?
贷的款,迟早是要还的。 ------ 爱心觉罗 . 辑 . 虾扯文章目录前言一、重新建模目标函数二、绘制模型图1.装修贷转化为同期房贷的利率变化图2.还款差额函数图3.最佳还款月的利率结论知识图谱三、代码1.装修贷转化为同期房贷的利率变化图代码2.差额函数的生成图示代码前言 昨天用Python简单的计算了装修贷和房贷的比较关系,我们的结论是装修贷会比同期房贷利率高,还得到了装修贷的年利率简单的估算关系。我们初步的结论是装修贷没有房贷划算。高中同届唯一考上清华的同学看了说..原创 2020-12-31 19:33:37 · 631 阅读 · 1 评论 -
一招看穿信用卡套路
一招看穿信用卡套路使用Python解决实际问题公式运行结果初步结论非线性方程的求解结论2使用Python解决实际问题最近做了件有意思的事,虽没多少技术含量,但还是可以分享出来逗大家乐一乐。因为穷,我需要向银行贷款,目前建设银行提供两个贷款:一个是利率为5.39%的房贷,等额本息,每个月还款固定金额;另一个是装修贷,月利率0.28%,本金分期偿还,类似于信用卡账单分期,每个月还款也是一个固定金额,贷款时间最长5年,额度30万。建行经理说装修贷是该行最优惠的贷款了,一般信用卡分期的基础利率为0.68%,原创 2020-12-30 13:54:42 · 1457 阅读 · 1 评论