
数据分析综合
数据分析中所遇到的一些琐碎问题总结
小獾哥
技术为我赋能
展开
-
jupyter-notebook中使用自己创建的conda环境
目的:让不同的项目使用不同的conda环境,方便管理,避免不必要的错误发生。1.创建conda虚拟环境conda create --name AMEnv python=3.82.进入我们刚创建的虚拟环境中conda activate AMEnv3.安装 ipykernelpip install ipykernel4.将我们创建的虚拟环境写入notebook的kernel环境中去python -m ipykernel install --user --name AMEnv原创 2020-08-13 13:26:24 · 493 阅读 · 0 评论 -
当使用jupyter-notebook读取sql server上超过百万的数据时报错MemoryError
在做数据分析时,才读取了数据中几百万的数据就给我报错,提示内存错误。但想了想也不对,虽然我的电脑算不上高配,但也有16个G的内存,几百万的数据顶多不到3个G,怎么会提示内存错误呢?仔细查看原因,发现我使用的是python3虚拟环境开启的jupyter-notebook。猜测可能是这个原因,直接换成anaconda,并在anaconda中安装读取sql server的包pymssql,果真就成功了。...原创 2020-04-14 22:16:34 · 2553 阅读 · 0 评论 -
python3数据分析面试题--找出出现次数最多的名字并统计次数
前段时间有一个朋友说遇到一个数据分析的面试题,今天来和大家分享一下。题目是这样的:有一个姓名列表,列表中有很多名字,且有些名字是重复的,要求是找出出现次数最多的名字,以及出现的次数。上代码:from pandas import DataFrame, Seriesimport pandas as pdimport numpy as npname_list = ["张三", "李四", ...原创 2020-03-11 14:08:31 · 4749 阅读 · 0 评论 -
如何在excel中快速的比较出两列数是否相同
函数:=IF(EXACT(B2,C2)=TRUE,"相同","不同")效果展示:完毕!原创 2020-01-21 14:47:45 · 1325 阅读 · 0 评论 -
01.数据分析中的理论知识
一、常用的数据概念集中趋势:数据聚拢位置的一种衡量均值:常用来分析连续值、分布比较均匀的值的趋势中位数:用来分析存在异常值的数据,例如某些值特别大或特别小众数:用来衡量离散值的集中趋势分为数:与其他几个值共同作用。含义:将数据从小到大排列,切分成等分的数据点。常用到的是四分位数四分位数的计算方法:Q1的位置 = (n+1)*0.25Q2的位置 = (n+1)*0.5Q3的位...原创 2020-01-14 09:44:31 · 604 阅读 · 0 评论 -
案例二、股票市场分析(仅供学习参考)
Github项目链接地址:https://github.com/Maxwellwk/DataAnalysisCase/tree/master/PrimaryCaseAAPL、GOOG、MSFT、AMZN、FB股票市场分析目的:分析每个公司的股价走势 比较亚马逊和谷歌以及微软和脸书的股价走势 通过分位数来对苹果的股价进行风险评估 彩蛋:分析唯品会的股价趋势import nump...原创 2019-12-30 22:37:28 · 1191 阅读 · 0 评论 -
案例一、航班准点预测(仅供学习参考)
GitHub项目连接地址:https://github.com/Maxwellwk/DataAnalysisCase/tree/master/PrimaryCase美国航班的准点预测import numpy as npimport pandas as pdfrom pandas import Series, DataFrame# 航班数据的链接网址link = 'https://p...原创 2019-12-30 22:24:16 · 3627 阅读 · 0 评论 -
pyton3 将DataFrame类型的数据写入sql server数据库中
前提:按照需求将处理好的DataFrame类型的数据保存在sql server数据库中,数据库需要提前建好,表可建可不建,运行代码后会自动创建,但还是建议自己建表,因为自动创建的表,表中的字段类型,可能并不是你想要的。使用时将代码中的连接信息改成自己的即可!# -*- coding: utf-8 -*-from pandas import DataFrame, Series# sql...原创 2019-11-09 16:58:15 · 6663 阅读 · 1 评论 -
python3 利用 for 循环创建 DateFrame 数据 很有用!
使用情景:在处理json类型的数据时,需要将最终的结果保存在sql数据库中,如果每条数据都连接一次数据库的话,入库效率太低,可以将同批次的数据整理成DataFrame类型后,再入库,效率成指数级增长。代码实现:# -*- coding: utf-8 -*-from pandas import DataFrame, Seriesses_list = []for i in ran...原创 2019-11-09 16:45:01 · 7919 阅读 · 4 评论 -
python3 数据分析折线图、柱状图、饼状图、象限图案例
github地址:https://github.com/Maxwellwk/DataAnalysisCaseShow/blob/master/primary_data_analysis/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90%E6%A1%88%E4%BE%8B.ipynb原创 2019-09-11 14:25:31 · 493 阅读 · 0 评论 -
在python中利用pandas读取MySQL中的数据并将其写入excel表格中
问题描述:猫哥在抓取了一大批数据后(过百万)想通过navicate直接导出成excel表格,然而发现电脑和navicate都不给力,导出到一半就会卡死,关都关不掉。于是便想到了强大的pandas解决办法:利用pandas从mysql中将数据读出来,再将读出的数据写到excel表格中。代码实现:# coding=utf-8import pandas as pdfrom pa...原创 2019-06-11 10:17:54 · 4409 阅读 · 0 评论 -
在python3虚拟环境中安装jupyter notebook 并确保正常启动
如何创建python3虚拟环境可以参考我的这篇文章https://blog.youkuaiyun.com/qq_26870933/article/details/81502484使用 source /虚拟环境路径/py3/bin/activate 进入python3虚拟环境pip install numpypip install pandaspip install setuptoolspi...原创 2019-03-05 23:32:37 · 4773 阅读 · 1 评论