
数据分析
此专栏包含数据分析基础和数据分析进阶两个部分
小獾哥
技术为我赋能
展开
-
使用pandas.merge合并dataframe,并指定多个关联条件
【代码】使用pandas.merge合并dataframe,并指定多个关联条件。原创 2022-10-12 16:07:51 · 2876 阅读 · 0 评论 -
利用kibana的Visualize工具生成可视化图形(解决index索引找不到的问题)
**问题:**有朋友问我,他想在kibana中使用Visualize工具生成可视化图形,但是却找不到自己创建的ES索引文件。只有官方默认的测试文件,就像下面图片的这个样子。原因: 我们没有将自己的索引加入到 Index patterns 中,所以在Visualize工具中才找不到。解决办法: 操作步骤如下图所示进入kibana的首页 http://192.168.xx.xx:5656/完毕!PS:利用Visualize工具生成其它图形,可参考官方文档...原创 2021-11-24 10:24:16 · 2460 阅读 · 0 评论 -
利用pandas对python字典中的多个键值进行排序,三行代码搞定
需求: 要对字典中的添加时间进行倒叙,时间一致的话,根据分数倒叙,分数一致的话根据年龄正序解决思路: 直接利用python中的字典进行排序太麻烦,可以利用pandas先将字典转成DataFrame,利用DataFrame进行排序,最后再将DataFrame转成字典。只需三行代码,下面的代码是猫哥对其进行了封装。上代码:from pandas import DataFrameimport datetimedef dict_order(dict_info, sort_field, sort_rul原创 2021-06-25 15:13:43 · 925 阅读 · 0 评论 -
使用pandas读取sql server数据库时,返回的数据中中文全是乱码,解决办法如下~
问题描述:如果你在jupyter-notebook中使用pandas链接sql server数据库,读出的数据凡是中文,就全部显示乱码,那么最简单的解决办法如下~解决方案简单、粗暴、有效将你sql server数据库中 varchar 的数据类型,全部改为 nvarchar 的数据类型即可。完毕!...原创 2020-05-27 14:02:03 · 1889 阅读 · 1 评论 -
当使用jupyter-notebook读取sql server上超过百万的数据时报错MemoryError
在做数据分析时,才读取了数据中几百万的数据就给我报错,提示内存错误。但想了想也不对,虽然我的电脑算不上高配,但也有16个G的内存,几百万的数据顶多不到3个G,怎么会提示内存错误呢?仔细查看原因,发现我使用的是python3虚拟环境开启的jupyter-notebook。猜测可能是这个原因,直接换成anaconda,并在anaconda中安装读取sql server的包pymssql,果真就成功了。...原创 2020-04-14 22:16:34 · 2553 阅读 · 0 评论 -
python3数据分析面试题--找出出现次数最多的名字并统计次数
前段时间有一个朋友说遇到一个数据分析的面试题,今天来和大家分享一下。题目是这样的:有一个姓名列表,列表中有很多名字,且有些名字是重复的,要求是找出出现次数最多的名字,以及出现的次数。上代码:from pandas import DataFrame, Seriesimport pandas as pdimport numpy as npname_list = ["张三", "李四", ...原创 2020-03-11 14:08:31 · 4749 阅读 · 0 评论 -
如何在excel中快速的比较出两列数是否相同
函数:=IF(EXACT(B2,C2)=TRUE,"相同","不同")效果展示:完毕!原创 2020-01-21 14:47:45 · 1325 阅读 · 0 评论 -
01.数据分析中的理论知识
一、常用的数据概念集中趋势:数据聚拢位置的一种衡量均值:常用来分析连续值、分布比较均匀的值的趋势中位数:用来分析存在异常值的数据,例如某些值特别大或特别小众数:用来衡量离散值的集中趋势分为数:与其他几个值共同作用。含义:将数据从小到大排列,切分成等分的数据点。常用到的是四分位数四分位数的计算方法:Q1的位置 = (n+1)*0.25Q2的位置 = (n+1)*0.5Q3的位...原创 2020-01-14 09:44:31 · 604 阅读 · 0 评论 -
案例二、股票市场分析(仅供学习参考)
Github项目链接地址:https://github.com/Maxwellwk/DataAnalysisCase/tree/master/PrimaryCaseAAPL、GOOG、MSFT、AMZN、FB股票市场分析目的:分析每个公司的股价走势 比较亚马逊和谷歌以及微软和脸书的股价走势 通过分位数来对苹果的股价进行风险评估 彩蛋:分析唯品会的股价趋势import nump...原创 2019-12-30 22:37:28 · 1191 阅读 · 0 评论 -
案例一、航班准点预测(仅供学习参考)
GitHub项目连接地址:https://github.com/Maxwellwk/DataAnalysisCase/tree/master/PrimaryCase美国航班的准点预测import numpy as npimport pandas as pdfrom pandas import Series, DataFrame# 航班数据的链接网址link = 'https://p...原创 2019-12-30 22:24:16 · 3627 阅读 · 0 评论 -
pyton3 将DataFrame类型的数据写入sql server数据库中
前提:按照需求将处理好的DataFrame类型的数据保存在sql server数据库中,数据库需要提前建好,表可建可不建,运行代码后会自动创建,但还是建议自己建表,因为自动创建的表,表中的字段类型,可能并不是你想要的。使用时将代码中的连接信息改成自己的即可!# -*- coding: utf-8 -*-from pandas import DataFrame, Series# sql...原创 2019-11-09 16:58:15 · 6663 阅读 · 1 评论 -
python3 利用 for 循环创建 DateFrame 数据 很有用!
使用情景:在处理json类型的数据时,需要将最终的结果保存在sql数据库中,如果每条数据都连接一次数据库的话,入库效率太低,可以将同批次的数据整理成DataFrame类型后,再入库,效率成指数级增长。代码实现:# -*- coding: utf-8 -*-from pandas import DataFrame, Seriesses_list = []for i in ran...原创 2019-11-09 16:45:01 · 7919 阅读 · 4 评论 -
python3 数据分析折线图、柱状图、饼状图、象限图案例
github地址:https://github.com/Maxwellwk/DataAnalysisCaseShow/blob/master/primary_data_analysis/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E6%A1%88%E4%BE%8B.ipynb原创 2019-09-11 14:25:31 · 493 阅读 · 0 评论 -
在python中利用pandas读取MySQL中的数据并将其写入excel表格中
问题描述:猫哥在抓取了一大批数据后(过百万)想通过navicate直接导出成excel表格,然而发现电脑和navicate都不给力,导出到一半就会卡死,关都关不掉。于是便想到了强大的pandas解决办法:利用pandas从mysql中将数据读出来,再将读出的数据写到excel表格中。代码实现:# coding=utf-8import pandas as pdfrom pa...原创 2019-06-11 10:17:54 · 4409 阅读 · 0 评论 -
在python3虚拟环境中安装jupyter notebook 并确保正常启动
如何创建python3虚拟环境可以参考我的这篇文章https://blog.youkuaiyun.com/qq_26870933/article/details/81502484使用 source /虚拟环境路径/py3/bin/activate 进入python3虚拟环境pip install numpypip install pandaspip install setuptoolspi...原创 2019-03-05 23:32:37 · 4773 阅读 · 1 评论 -
02.数据分析基础-思维导图
这几天猫哥把自己掌握的一些数据分析知识做成了一个思维导图,这个思维导图主体包含numpy、pandas以及数据可视化的内容。具体包含的内容主要是以实际案例为主,以及其对应的中文使用手册,案例中会包含相应的备注和代码。猫哥这样写的目的主要是为了方便大家的查找,毕竟numpy、pandas及数据可视化仅仅是数据分析的工具而已,没必要把所有的东西都记住,用到的东西查一查就可以了。数据分析的主要思想还是需要你对自身的业务有足够的了解,并利用统计学、概率论等数学知识进行深入的分析。(但如果你仅仅是想替别人做嫁衣的话原创 2020-05-17 19:29:13 · 1843 阅读 · 0 评论 -
在excel快速将一列地址信息拆分成三列属性字段
要求:在excel中快速将一列地址信息拆分成三列属性字段,原字段如下:拆分结果如下:使用VB代码实现:Sub zz()Dim s$, b()'选择要处理的行数 从a2到a7ar = [a2:a7].ValueReDim b(1 To UBound(ar), 1 To 4)With CreateObject("vbscript.regexp") '提取属性的正则表达式 .Pattern = "(.*?期)(.*?单元)(.*?室)" For i = 1 To UBoun原创 2020-05-15 14:08:54 · 1264 阅读 · 0 评论 -
numpy数组的使用案例
Numpy本身并没有提供那么多高级的数据分析功能,理解Numpy数组以及面向数组的计算将有助于我们更加高效的使用pandas之类的工具。Numpy最重要的一个特点就是其N纬数组对象(即ndarray),该对象是一个快速而灵活的大数据集容器。我们可以利用这种数组对整块的数据执行一些数学运算。1.创建ndarray数组a.array函数创建数组import numpy as nparra...原创 2020-05-07 23:56:19 · 552 阅读 · 0 评论 -
00.jupyter-notebook环境搭建
jupyter-notebook的安装在百度上一搜一大堆,猫哥在这里提一下,主要是为了统一编辑环境,避免不必要的错误。猫哥的建议是直接安装anaconda,因为anaconda包含了大量科学计算的包,也避免了后期我们在使用时,又去重新下载。安装前准备:将win10的python版本设置成默认python3. (网上有很多解决办法,其中猫哥认为最简单的一个做法是在环境变量的path中,将pyth...原创 2020-05-05 20:19:29 · 364 阅读 · 0 评论