
Python
文章平均质量分 72
fff2zrx
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
matplotlib 自定义颜色
获取RGB信息,比如(68, 114, 197),传入归一化后的RGB颜色color=(68/255, 114/255, 197/255)即可。原创 2023-12-24 20:40:30 · 663 阅读 · 0 评论 -
大数据告诉你新能源汽车哪家强?
随着双碳战略的提出和电池技术、电动机技术等的不断进步,新能源汽车最近几年势头很猛,借着一份汽车销售数据一起来了解一下新能源汽车目前的市场情况,大家买电车的说不定可以用上,毕竟这可是。原创 2023-12-24 20:20:31 · 354 阅读 · 0 评论 -
除法类型复合指标异动贡献度计算
除法类型复合指标异动贡献度的python计算模版原创 2023-09-21 01:01:00 · 1666 阅读 · 0 评论 -
python求列表的交集、并集、差集
data_rule_eff是根据我们线上策略判断的作弊订单data_device、data_face、data_dest是根据我们挖掘到的新特征判断的作弊订单。原创 2023-07-24 15:14:27 · 354 阅读 · 0 评论 -
假设检验之卡方检验
为什么要求卡方检验的期望频数不小于5?假设期望频数小于5会有什么后果?原创 2022-12-27 00:11:12 · 1867 阅读 · 0 评论 -
快充伤电池?我来帮何同学做个假设检验
何同学在视频中给出的结论是正确的(当然了这些结论是各手机厂商用上前台手机已经验证过的结论),但是从数据到结论缺少了分析过程,数据分析的大忌啊。以上就是本次文章的全部内容啦。原创 2022-10-30 16:42:51 · 2466 阅读 · 3 评论 -
利用蒙特卡洛模拟求积分
我们现在想通过蒙特卡洛模拟求下面这个积分的值,这个积分比较简单,我们当然可以计算出来为4。而对于复杂的定积分我们则可以通过蒙特卡洛模拟来求对应积分值。下面我们拿这个积分举例蒙特卡洛模拟如何求积分。文章目录投点法求积分平均法求定积分参考链接投点法求积分即模拟很多点投到对应区间,如果在对应概率密度曲线下面,则计为1,否则为0,最后统计出1的比例。然后用x y对应范围组成的长方形面积S乘以这个比例即为所求积分。import randomx_min = 0.2x_max = 1num_samples原创 2021-09-09 16:49:03 · 3659 阅读 · 0 评论 -
假设检验之Z检验
两总体Z检验原创 2021-09-02 11:11:30 · 1166 阅读 · 0 评论 -
如何验证多组数据之间有无显著差异
利用方差分析和卡方分布验证多组数据之间的某些属性有无显著性差异,对于连续性属性可以用方差分析,对于离散型属性可以用卡方检验。方差分析单因素方差分析通过箱线图可以人肉看出10组的订单量看起来差不多,为了更科学比较10组的订单量有无显著差异,我们可以利用方差分析from statsmodels.formula.api import olsfrom statsmodels.stats.anova import anova_lmmodel = ols('orders~C(label)',data=.原创 2021-08-27 15:12:37 · 20212 阅读 · 0 评论 -
datawhale-异常检测打卡之Task 3:线性模型
真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为回归建模,一种参数化的相关性分析。变量的相关性分析主要分为2类,一类相关性分析试图通过其他变量预测单独的属性值,另一类方法用一些潜在变量来代表整个数据。前者的典型代表是线性回归,后者一个典型的例子是主成分分析。本文将会用这两种典型的线性相关分析方法进行异常检测。1.线性回归线性回归是统计学中一个重要的应用,这个重要的应用往往是指通过一系列自变量去预测一个特殊因.原创 2021-01-18 22:43:00 · 281 阅读 · 0 评论 -
datawhale-异常检测打卡之Task 2:基于统计学
基于统计学的方法一般是假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。根据如何指定和学习模型,异常检测的统计学方法可以划分为两个主要类型:参数方法和非参数方法参数方法假定正常的数据对象是由某些参数的参数分布产生,该参数分布会给出对于每个点的产生的概率。概率越小,则该点越可能是异常点非参数方法并不假定先验统计模型,而是试图从输入数据确定模型。1.参数方法基于正态分布的一元异常点检测仅涉及一个属性或变量的.原创 2021-01-15 20:49:30 · 275 阅读 · 0 评论 -
datawhale-异常检测打卡之Task 1:异常检测介绍
1. 异常检测是什么异常检测(Outlier Detection),就是识别出来与正常或者说大多数数据差异较大的数据。如识别信用卡欺诈,工业生产异常,网络流里的异常等。点异常(离群)指的是少数个体是异常的,大多数是正常的,例如正常人与病人的健康指标上下文异常(特殊场景离群)指的是在特定情境下个体是异常的,在其他情境下都是正常的,例如在特定时间下的温度突然上升或下降群体异常(一堆坏人里的好人)指的是在群体集合中的个体实例出现异常的情况,而该个体自身可能并不是异常例如社交网络中虚假账号形成原创 2021-01-12 17:45:40 · 351 阅读 · 0 评论 -
用10行python代码获取全国城市交通生活圈
今天在网上冲浪看到一个很花哨的数据,全国各城市主要商圈从早上6点到晚上10点的20min,30min,45min,60min,90min生活圈轮廓。1 获取思路按下F12,点击淮海路可以看到出现一个网站,他就是我们要找的接口内容是通过get请求直接获取的,接口是https://trp.autonavi.com/ajax/life/circle.do?districtId=B00156EVQJ&dir=0&timeIndex=8点击网页上的目的地,发现接口里dir变成了1..原创 2020-12-17 20:02:52 · 697 阅读 · 2 评论 -
python中如何拆分列表
names=[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]n=3 #将列表每3个组成一个小列表,for i in range(0, len(names), n): name=names[i:i + n] print(name)上面的例子是正好是分割间隔的整数倍,分割完毕但如果不是分割间隔的整数倍时,上面的代码能否奏效呢?names=[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16]n=3 #将列表每3个转载 2020-12-03 17:35:16 · 9863 阅读 · 0 评论 -
python- 变量区变量保存与加载
方法一推荐一个很简单又好用的保存python变量区变量的模块:dillhttps://pypi.org/project/dill/使用举例,保存变量区变量到文件:import dilldill.dump_session('file_name.pkl')加载文件内容到变量区dill.load_session('file_name.pkl')方法二如果想保存某个或多个对象(变量),可以使用pickleimport picklef = open('store.pckl', 'wb')转载 2020-12-03 17:25:40 · 807 阅读 · 0 评论 -
python生成指定时间段内的随机时间
method1import datetime,randomdef randomtimes(start, end, n, frmt="%Y-%m-%d %H:%M:%S"): stime = datetime.datetime.strptime(start, frmt) etime = datetime.datetime.strptime(end, frmt) time_datetime=[random.random() * (etime - stime) + stime for转载 2020-11-15 15:28:34 · 6085 阅读 · 2 评论 -
pandas中数据的复制
这篇主要是记一下pandas中的对象复制操作用=号复制可以看到data1跟data的id是一样的如果此时改变data1或者data1中的一个,两者会一起变化,如下图所示可以看到,修改data1后,data也同步发生了变化,所以= 是让新的变量指向旧变量的地址,两个变量指向同一内容,改变这个内容,这两个变量都会改变。当然直接重新赋值data1或者data一套新数据的话,python会认为是在创建新对象,二者就不会同步了用copy复制可以看到,用copy复制的话,新对象data.原创 2020-11-15 15:06:40 · 12290 阅读 · 1 评论 -
常用绘图之直方图
直方图matplotlib.pyplot.hist(x, bins=None, range=None, density=None, weights=None, cumulative=False, bottom=None, histtype=‘bar’, align=‘mid’, orientation=‘vertical’, rwidth=None, log=False, color=None, label=None, stacked=False, normed=None, *, data=None,原创 2020-10-13 21:02:36 · 1141 阅读 · 2 评论 -
numpy学习(二):常用方法笔记
1.numpy数组迭代二维数组:import numpy as nparr = np.array([[1, 2, 3], [4, 5, 6]])for x in arr: print(x)三维数组:import numpy as nparr = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])for x in arr: print("x represents the 2-D array:") p原创 2020-10-07 13:36:58 · 776 阅读 · 0 评论 -
pyecharts绘图笔记(一)
pyecharts是干什么的echarts 是百度开源的一个数据可视化 JS 库,主要用于数据可视化。pyecharts 是一个用于生成 Echarts 图表的类库。实际上就是 Echarts 与 Python 的对接。pyecharts分为v0.5和v1两个版本,v0.5和v1两个版本并不兼容,v1是一个船新的版本,本文绘图均基于v1版本。echarts官网:https://www.echartsjs.com/index.htmlpyecharts官网:https://pyecharts.or原创 2020-09-13 21:56:45 · 1333 阅读 · 0 评论 -
遗传算法快乐调包鸭
最近想重新搞一下遗传算法,突然发现python也有一个牛批的包可以吊了,兄弟姐妹们,还等什么,都给我调geatpygeatpy官方主页作者大大赛高官方入门教程简单来说就是,我们只需要根据自己的实际问题,写好MyProblem这个类Problem类定义了与问题相关的一些信息,如问题名称name、优化目标的维数M、决策变量的个数Dim、决策变量的范围ranges、决策变量的边界borders等。maxormins是一个记录着各个目标函数是最小化抑或是最大化的Numpy a.原创 2020-09-03 21:39:55 · 1247 阅读 · 0 评论 -
pandas学习(四):数据透视
此笔记是学习以下两篇文章以及其他用到过的个人总结pandas系列学习(七):数据透视表Pandas | 一文看懂透视表pivot_table最初学习excel时,大家都用过它的数据透视表功能,而pandas也可以做到这一点,这个函数就是pivot_tablepivot_table参数解释官方文档见pandas.pivot_tablepivot_table(data, values=None, index=None, columns=None,aggfunc=‘mean’, fill_val.原创 2020-08-25 16:05:23 · 506 阅读 · 0 评论 -
用卡尔曼滤波处理轨迹
卡尔曼滤波这个词老是听到,一直也没有耐心看,最近准备看看轨迹挖掘相关的东西,第一步轨迹处理中卡尔曼滤波就又出现了,终于耐着性子研究了两天(一看一堆矩阵就脑壳痛),期间网上找了不少代码和博客,算是大概明白了,还自己改了一版代码,做个小笔记卡尔曼滤波这个东西,我理解下来就是一方面通过理论模型算出一个预测值,另一方面通过测量手段测出一个测量值,然后通过加权平均得出一个估计值,使得这个估计值最接近真实值。原理的详细推导可以详细见卡尔曼滤波:从入门到精通这里先记一下算法步骤X^k−代表预测值,Z^k代表测.原创 2020-08-20 20:22:13 · 12799 阅读 · 19 评论 -
GeoHash原理
GeoHash原理geohash是将二维的经纬度坐标点转换为一维的字符串,某一个字符串表示了某一个矩形区域,经纬度分别对应一个区间。geohash算法的实质其实是多次二分法,不断地缩小经纬度区间范围,从而缩小上述矩阵区域的范围纬度范围在[-90,90],经度范围在[-180,180]拿到一个location时(116.389550, 39.928167)对纬度区间[-90,90]二分,[-90,0]及[0,90],显然纬度39.928167在[0,90]得到第一次二分的结果,得到第一次二分结果转载 2020-08-09 13:42:28 · 1440 阅读 · 0 评论 -
利用GMM对鸢尾花聚类
文章目录数据选取和数据情况利用高斯混合模型聚类模型原理GMM实现k-means生成模型初始参数EM算法迭代训练模型预测模型聚类效果数据选取和数据情况本次聚类实验仍然选取鸢尾花数据集(http://archive.ics.uci.edu/ml/datasets/Iris)数据包含5列,分别是花萼长度、花萼宽度、花瓣长度、花瓣宽度、鸢尾花种类。鸢尾花属种类包含三种:iris-setosa, iris-versicolour, iris-virginica。鸢尾花的种类不参与聚类,最后用于计算准确率作原创 2020-08-09 13:31:33 · 4444 阅读 · 3 评论 -
Python 中 (&,|)和(and,or)之间的区别
(&,|)和(and,or)是两组比较相似的运算符,用在“与”/ “或”上,但是在用法上有些许区别。(&,|)和(and,or)是用来比较两组变量的,格式基本上是:a & ba | ba and ba or b如果a,b是数值变量, 则&, |表示位运算, and,or则依据是否非0来决定输出&, |# 1&2,2在二进制里面是10,1在二进制中是01,那么01与运算10得到是01 & 2 # 输...转载 2020-08-03 10:14:26 · 706 阅读 · 0 评论 -
如何用pandas提取指定时间段的数据
处理数据时,经常用到的一个需求是:从全部数据中提取某个时间段内的数据order_data['start_time'] = pd.to_datetime(order_data['start_time'], format="%Y/%m/%d %H:%M:%S")如获取1月到4月份的数据order_data[order_data['start_time'].dt.month.isin(np.arange(1, 5))]如获取2020-01-02到2020-01-12的数据open_day='20.原创 2020-07-19 14:53:55 · 37468 阅读 · 11 评论 -
pandas的apply中的x到底是什么
使用pandas时经常会用到map,apply函数,一般是配合自己定义的匿名函数(lambda)或者函数使用,比较灵活方便。但是一般也没有深究函数中的那个x到底是什么,是一个数字或者字符,一行还是一列?现在我们来仔细看看到底是啥,明白了这个对我们使用apply的时候自定义函数十分有益首先自定义一个简单的Dataframeimport pandas as pddata=pd.DataFrame({"id":[1,3,5,7],"score":[61,63,65,67]})情况1: 对某一列.原创 2020-07-18 14:31:48 · 1349 阅读 · 1 评论 -
基于conv-lstm方法预测共享单车需求
基于conv-lstm方法预测共享单车需求终于不用写期末作业了,我来营业了。公众号居然破500关注了,一颗赛艇。本期分享下我们小组的数据挖掘期末(划水)大作业,小组成员还有李天豪and张振同学。主题是:基于conv-lstm方法预测共享单车需求主要参考的论文是:Bao J, Yu H, Wu J, et al. Short-term FFBS demand prediction with multi-source data in a hybrid deep learning framework原创 2020-06-28 16:14:24 · 4020 阅读 · 16 评论 -
用python如何画出好看的地图
最近正好在学空间数据处理,这次更一下用python如何画出好看的地图下面主要是用foliumpoltlygeopandas+matplotlib三种方式绘制地图1.foliumimport foliumimport pandas as pd#输入上海经纬度,尺度latitude = 31.2longitude = 121.5sh_map = folium.Map(location=[latitude, longitude], zoom_start=10)sh_ma原创 2020-05-23 10:52:52 · 1377 阅读 · 0 评论 -
可视化城市可达性
知乎似乎终于通过大数据发现我是交通专业的了2333,最近推送了一个跟交通相关的内容,是一个人转载外国关于可达性分析的博客,博客里面的图成功吸引到了我的注意,颜值也太高了,果然人都是看脸传送门:https://geoffboeing.com/2016/07/visualize-urban-accessibility-walkability/,文中给了相关代码,稍作修改即可,安装库比较麻烦点我拿上海的poi数据试了试:poi数据是从高德api搞下来的,不推荐百度api爬了地铁站,公交站,学校,餐.原创 2020-05-11 11:30:31 · 1150 阅读 · 0 评论 -
pandas的100个tricks
最近发现kaggle上一位pandas大神总结的100个tricks,觉得有些很有用,节选了整理一些,记录于此原地址点击文章目录Trick 1: 打印出 pandas的版本和它的依赖Trick 2: 使用pandas内置的npTrick 3: 一行查看数据总体情况Trick 4: pd.read_csv()的很有用的参数加载大文件的样例数据读取指定列和指定列数据类型用header和skiprow...翻译 2020-04-30 23:58:39 · 774 阅读 · 0 评论 -
pandas的100个tricks(精细版)
最近发现kaggle上一位pandas大神总结的100个tricks,觉得有些很有用,https://www.kaggle.com/python10pm/pandas-100-tricks文章目录Trick 1: 一行查看数据总体情况Trick 2: pd.read_csv()中有用的参数加载大文件的样例数据读取指定列和指定列数据类型Trick 3: datetime对象可用接口Trick ...翻译 2020-04-30 23:52:26 · 540 阅读 · 0 评论 -
使用bat脚本双击打开jupyter notebook
用惯了pycharm,所以懒得再安装anaconda,安装了jupyter notebook这个包,但每次想使用时,就要两步走win+R 输入cmd,打开命令行窗口输入jupyter notebook,然后就在浏览器里打开了实在是有点烦,天天打jupyter notebook这个单词查到了bat脚本@echo off cd C:/Users/zrxstart cmd /k ...原创 2020-04-25 11:26:49 · 2358 阅读 · 1 评论 -
datetime时间类型加减运算
python中处理时间数据,建议使用datetime类型计算时间差import datetimea=datetime.datetime.now()#some codeb=datetime.datetime.now()print((b-a).seconds)时间加减x天(小时/分钟/秒)import datetimea=datetime.datetime.now()+da...原创 2020-04-24 23:31:50 · 8948 阅读 · 0 评论 -
pandas之resample踩坑
之前强烈安利的pandas函数resample最近坑我不浅,记录下来一言以蔽之:它娘的会自动补全中间缺的日期背景是这样:我想按下雨工作日和周末,不下雨工作日和周末,统计按15min集计订单时变量,然后绘制这种图于是筛选好四部分数据后,依次放入下面代码所示函数中进行集计resample_data=order_data.resample('15T',on='start_time').agg...原创 2020-04-22 16:46:26 · 3122 阅读 · 0 评论 -
字符串时间与datetime对象相互转换
普通的字符串与datetime对象时间互相转换普通字符串==>>datetime对象strptime 格式要对应parser.parse 格式自由datetime对象==>>普通字符串strftimefrom dateutil import parserimport datetimetime_string='Thu Dec 22 12:40:...原创 2020-04-19 23:03:02 · 1544 阅读 · 0 评论 -
pandas之上下行运算
有时候我们需要判断相邻两行关系,比如想去除掉相邻两行某个字段相同的数据行。比如我们可以写一个循环,判断每一行与上一行的关系但是pandas已经有了现成的函数供我们使用diff函数pandas.Series.diffCalculates the difference of a Series element compared with another element in the Ser...原创 2020-04-17 22:56:56 · 7065 阅读 · 0 评论 -
利用C4.5算法对鸢尾花分类
文章目录数据选取和数据情况利用C4.5算法分类离散化连续变量C4.5原理C4.5实现应用训练好的决策树分类数据选取和数据情况本次实验选取鸢尾花数据集(http://archive.ics.uci.edu/ml/datasets/Iris)数据包含5列,分别是花萼长度、花萼宽度、花瓣长度、花瓣宽度、鸢尾花种类。鸢尾花属种类包含三种:iris-setosa, iris-versicolour,...原创 2020-04-17 20:54:06 · 5878 阅读 · 14 评论 -
pandas之多行按类合并为一行
前言前面讲到explode操作是把某一列中的嵌套列表拆分为多行那有时候我们会有着相反的需求,即按照某一列,把相同值对应的多行合并成一行原理主要用到groupby函数+apply函数读取数据data=pd.read_csv('data.csv',header=None)data.columns=['car_id','time','lon','lat']2. 多列合并为一列...原创 2020-04-05 20:43:28 · 16931 阅读 · 4 评论