
数据分析
文章平均质量分 71
阳阳7
努力 忍耐 等待
展开
-
python对几种数据读写方式以及MySQL数据库
python对几种数据读写方式对txt的读写dataSource = open('data.txt',encoding='utf-8',mode='r')savePath = 'save.txt'f = open(savePath,encoding='utf-8',mode='w+')# 读取for lineData in dataSource.readlines(): dataList = lineData.replace('\n','').split(',') print原创 2021-06-25 16:26:18 · 338 阅读 · 0 评论 -
数据清洗最基础的十个问题
很多时候,数据预处理和数据清洗、特征工程等混为一谈,以至于大家分不清到底哪一步用谁。我个人的理解是:数据预处理主要是对数据集进行探索性分析,而特征工程则是进行分析后的相应处理。以上两个名词不常说,最常听的应该还是数据清洗,差不多也就相当于上面两个步骤。例如:在预处理阶段发现数据存在缺失值、异常值;数据特征之间存在共线性;数据特征可以互相组合形成更好的特征等等。就可以在特征工程 阶段对上述发现的问题进行相应的处理。以下总结了在数据预处理和特征工程阶段最常见的10个问题,基本上可以涵盖大多数的处理场景:原创 2021-05-03 13:55:14 · 1433 阅读 · 0 评论 -
csv 文件读写乱码问题的解决方法
首先导入三个模块import pandas as pd import os import chardetchardet 模块用于得到文件的编码格式,pandas 按照这个格式读取,然后保存为xlsx格式。获取filename文件的编码格式:def get_encoding(filename): """ 返回文件编码格式 """ with open(filename,'rb') as f: return chardet.detect(f.rea原创 2020-12-18 09:30:10 · 1738 阅读 · 0 评论 -
数据分析面对不同场景的应对方案?
面对的问题不同:战略、运营战略分析:是为了解决公司战略方向问题,回答要向哪里去的问题此类分析通常比较宏观,需要分析者有大局观、有战略思维所用的数据除了公司内部的数据,还需要竞品数据、行业数据。战略分析的方法:需要从竞品及行业数据中发现行业发展趋势及竞品的战略定位,同时结合公司内部数据,可以发现相对于行业和竞品发展,内部在哪些地方存在不足,以此制定进攻和防守策略运营分析:不同于战略分析,运营分析以解决实际运营问题为目标,比较微观需要分析者对公司业务模式、运营细节有深入的了解使用的数原创 2020-12-03 16:34:11 · 523 阅读 · 0 评论 -
什么是数据分析!!!
数据分析是一个从数据中通过分析手段发现业务价值的过程。这个过程的起点是获取一份数据,这个过程的终点是发现业务价值。过程可以大致为分数据获取——数据清洗——数据处理——数据建模——分析结果呈现——业务价值发现——业务价值实现这几个阶段。数据:数据不是简单的数字,也就是说,你告诉我一串数字77 17 88 99而没有其他信息对于我来说没有任何意义,这几个数字仅仅是数字而已,而不是数据。数据除了数字本身之外,还必须包含数字的来源,度量方式,单位,代表的业务场景等等。其中,我认为业务场景最重要!业务价值:.转载 2020-12-03 16:21:41 · 383 阅读 · 0 评论 -
数据分析的价值!
一、数据分析为什么如此重要对于toC类产品,由于覆盖的用户范围广、用户基数大,用户千差万别,背景各异。我们又很难对用户进行透彻的了解(问卷调查也只能覆盖一部分用户,并且问卷调查得出的结论可能不一定真实反映整体用户情况),因此产品怎么更好地服务于用户、真正对用户产生价值是每个提供toC产品与服务的公司非常头痛的问题。幸好,数据分析为我们了解用户打开了一扇窗,用户在产品上的操作行为为我们了解用户提供了“蛛丝马迹”,用户的操作行为也是用户最真实意图的反馈,通过分析用户行为,我们可以对用户进行更加细致的了解,最终转载 2020-12-03 10:15:04 · 438 阅读 · 0 评论 -
个人小阶段数据分析学习总结
读入数据,genre 取值的频次统计如下a = df[“genre”].value_counts()aAction,Adventure,Sci-Fi 50Drama 48Comedy,Drama,Romance 35Comedy 32Drama,Romance 31 ..Adv.原创 2020-12-03 09:32:37 · 917 阅读 · 0 评论 -
Jupyter notebook技巧使用指南
Jupyter Notebook简介Jupyter Notebook是一款开源的web应用,它允许使用者创建和分享包含代码,公式,可视化图表和纯文本的文档,并支持多种编程语言的交互式计算,对于python用户来讲更是一款十分方便的代码编写工具。只需要通过web浏览器就可以很方便地进行数据清洗和转换,数值模拟,统计建模,数据可视化,机器学习等。本文主要介绍Jupyter Notebook结合python的使用。Jupyter Notebook安装Jupyter Notebook的前身是IPython N转载 2020-06-24 16:16:44 · 3053 阅读 · 3 评论 -
数据分析部分基础算法理论解答
K-近邻算法(KNN)**适用数据范围:数值型和标称型 **原理简单地说,K-近邻算法采用测量不同特征值之间的距离方法进行分类。优点:精度高、对异常值不敏感、无数据输入假定。缺点:时间复杂度高、空间复杂度高。适用数据范围:数值型和标称型。工作原理存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输人没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类原创 2020-06-18 16:53:05 · 2641 阅读 · 0 评论 -
数据分析个人笔记
数据分析一、 Jupyter NotebookJupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。1、 命令模式(按键 Esc 开启)Enter : 转入编辑模式Shift-Enter : 运行本单元,选中下个单元Ctrl-Enter : 运行本单元Alt-Enter : 运行本单元,在其下插入新单元Y : 单元转入代码状态M :单元转入markdown状态R :原创 2020-06-18 15:06:22 · 9983 阅读 · 0 评论 -
jupyter函数的自我总结
jupyter ipython 版本改变了换了个名字jupyter开启方法:在 终端中 输入jupyter notebook条件:只支持谷歌内核的浏览器,在任何系统当中都不能关闭终端jupyter 可以创建python3文件,尾缀名.ipynb 终端在windows系统下无法使用%who查看变量 函数名 类名 包名%run 运行外部文件的,支持.ipynb .pynumpyndarray的创建:强制转换:np.array() 支持 list tuple创建nda原创 2020-06-18 14:24:50 · 3746 阅读 · 0 评论