
数据分析入门
周小丫0_0
这个作者很懒,什么都没留下…
展开
-
探索型数据分析 EDA 小结
一般流程读取数据了解整体数据情况,包括但不限于:1).数据字典,也就是字段,明确分析维度;2). 数据类型;object、int643).有无空值、缺失值数量或者缺失率;isnull()、info()4).特征中具体有哪些分类;nunique()、unique()5).描述性统计;describe()6).数据集是否是平衡数据集;直方图、饼图数据处理1).空值与缺失值处理 a). 不做处理 b). 全部缺失值删除、删除高于阈值的缺失值或者删除与其他特征高度关联的缺失值特征原创 2020-11-03 14:50:48 · 257 阅读 · 0 评论 -
申请评分卡的特征衍生
常用的特征衍生计数:过去1年内申请贷款的总次数求和:过去1年内的网店消费总额比例:贷款申请额度与年收入的占比时间差:第一次开户距今时长波动率:过去3年内每份工作的时间的标准差特征的分箱分箱的定义:将连续变量离散化,如收入将多状态的离散变量合并成少状态,如职业分箱的重要性:稳定性:避免特征中无意义的波动对评分带来的波动健壮性:避免了极端值的影响分箱的优势:可以将缺失值作为独立的一个箱带入模型中将所有变量换到相似的尺度上分箱的限制:计算量大分箱后需要编码原创 2020-11-03 10:56:14 · 378 阅读 · 0 评论 -
pandas连接MySQL数据库的两种方式
read_sql(sql, con, index_col=None, coerce_float=True, params=None, parse_dates=None, columns=None, chunksize=None)参数的意义:sql: 为可执行的sql语句con: 数据库的连接index_col: 选择某一列作为indexcoerce_float: 将数字形式的字符串直接以float型读入params: 返回传递参数的查询字符串parse_dates: 将某一列日期型字符串转换原创 2020-08-12 13:23:54 · 2749 阅读 · 0 评论 -
创建DataFrame对象——pd.Dataframe([])和pd.DataFrame()
# 有一个Series对象如下type_series=pd.Series(data=[8944510,559132,291657,199147], index=['pv','cart','fav','buy'])"""pv 8944510cart 559132fav 291657buy 199147Name: type, dtype: int64"""Pandas库里面DataFrame的介绍这里type原创 2020-08-11 00:04:33 · 2693 阅读 · 0 评论 -
DataFrame一些相关操作总结
原创 2020-08-03 13:30:49 · 162 阅读 · 0 评论 -
【数据分析实践】客户流失判断--数据建模
模型构建1 2kaggle案例 ↩︎知乎 ↩︎原创 2020-07-31 00:13:55 · 1318 阅读 · 0 评论 -
【数据分析实践】客户流失判断--探索性数据分析
数据来源:阿里天池-Ad Display/Click Data on Taobao.com原创 2020-07-31 00:12:54 · 3311 阅读 · 1 评论 -
网格搜索最优参数
from sklearn.linear_model import LogisticRegression # 逻辑回归from sklearn.neighbors import KNeighborsClassifier # K近邻from sklearn.svm import SVC # 支持向量机from sklearn.tree import DecisionTreeClassifier # 决策树from sklearn.ensemble原创 2020-07-30 18:44:26 · 1167 阅读 · 1 评论 -
【谁说菜鸟不会数据分析】pandas-数据处理
在这里插入代码片原创 2020-07-07 17:19:42 · 204 阅读 · 0 评论 -
【牛客-在线编程】数据库SQL实战61题
查找最晚入职员工的所有信息在这里插入代码片查找入职员工时间排名倒数第三的员工所有信息在这里插入代码片查找各个部门当前领导当前薪水详情以及其对应部门编号dept_no在这里插入代码片在这里插入代码片在这里插入代码片在这里插入代码片在这里插入代码片在这里插入代码片在这里插入代码片在这里插入...原创 2020-07-06 22:39:22 · 277 阅读 · 0 评论 -
b站三节课互联网商业数据分析实战-SQL案例
案例:了解用户近期产品使用情况需求列表业务价值近一周日活跃用户数监控产品健康程度近一周的次日留存率用户粘性如何?近3天被浏览最多的内容种类top3哪种内容更受用户欢迎需求解决流程:明确指标定义找到存储所需信息的数据表写SQL语句数据整理和呈现近一周日活跃用户数指标定义日活跃用户数:每天打开应用的用户数所需信息每天打开...原创 2020-05-02 11:48:11 · 1837 阅读 · 0 评论 -
b站三节课互联网商业数据分析实战-SQL在数据分析中的应用
SQL核心语句——数据过滤与查询-最常用8个核心语句-练习-8个核心语句背后的执行逻辑SQL核心语句组成: ① select 列名/聚合函数 as 别名 (select必选,as可选) ② from 表名(必选) ③ where 限制条件(可选) ④ group by 列名(可选) ⑤ having 限制条件(可选) ⑥ order by 列名 asc/desc(可选) ⑦...原创 2020-04-30 23:41:15 · 1670 阅读 · 0 评论 -
MySQL Workbench 8.0.20下载与安装
下载在官网MySQL Workbench 8.0.20点击Download下载安装选择安装路径新手建议选择complete安装一直next到最后安装完成使用打开workbench界面,按下图操作可以连接数据库,这里我连接本地数据库按上述操作后弹出窗口表明连接成功打开数据库在Schemas里面可以看到数据库也可以在Schemas框的空白地方右键选择Create...原创 2020-04-30 14:36:30 · 4772 阅读 · 0 评论 -
csv新增一列
两个文件夹下的csv都增加新的一列"""列名转换添加年份"""import pandas as pdimport os# dirpath = 'Springer'dirpath = 'Elsevier'def getCsvFiles(dirpath): csvfile = [] for root, dirs, files in os.walk(dirpath):...原创 2020-03-10 12:06:21 · 3082 阅读 · 0 评论 -
Mysql8.0.19下载与安装
下载在MySQL中文官网下拉至底部,找到MySQL Community Server选择安装方式,我选择的是解压版点击Download进入下载页面,直接下载即可安装放置目录下载后解压放在一个文件夹,我放置在D:\Mysql下然后在D:\Mysql\mysql-8.0.19-winx64文件夹下新建一个空文件夹data初始化命令行窗口执行D:\Mysql\mysql-...原创 2020-02-22 22:40:43 · 1649 阅读 · 0 评论 -
Install/Remove of the Service Denied
为MySQL设置Windows服务时报错解决方法:以管理员身份打开cmd.exe,然后再输入语句原创 2020-02-22 22:31:27 · 246 阅读 · 0 评论 -
由于找不到vcruntime140.dll,无法继续执行代码
安装Mysql时,在命令行窗口初始化mysqld --initialize-insecure提示报错【解决方法】:vcruntime140.dll可以理解为运行环境14.0版本,一段时间以前,对应版本为Microsoft Visual Studio 2015,所以理论上电脑上如果安装过vs2015应该不会报错;问题出现在我的电脑是安装的Microsoft Visual C++ 2017,又在安装...原创 2020-02-22 21:47:36 · 21415 阅读 · 7 评论 -
数据分析核心思维与思维技巧
数据的三种核心思维结构化公式化业务化结构化应用金字塔思维塔顶——第二层——第三层——第四层——方法:拆解问题,更有核心;工具:可以借助思维导图,xmind公式化可量化的规则;思维导图的语言描述转换为用运算法则表达的公式化业务化结构化和公式化的一个缺点:考虑的点是孤立的;业务化要深入理解业务;能不能将业务落地?(考虑可行性)用结构化思考+公式拆解,获得的最终分...原创 2019-11-13 14:48:40 · 420 阅读 · 0 评论 -
数据分析的结构层次
底层数据的收集/产品端的收集数据采集简称埋点,收集用户在网页端、产品端、客户端等终端的数据,也包括第三方外部数据。用户行为——原始数据数据业务化/产品需要什么样的数据将收集的数据转换成可理解、可量化、可观察的业务指标。单纯的数据没有意义。只有和业务结合才能发挥价值。原始数据——加工数据数据可视化/产品的表现如何?有了数据指标,必须管理好指标。数据分析体系即数据指标体系,指标需要监控和...原创 2019-11-06 10:50:55 · 902 阅读 · 0 评论