
学习笔记
文章平均质量分 92
salt2020
THE PRICE
展开
-
ggplot2 包画分组 boxplot
## 对不同质量组的挥发性酸含量绘制箱线图## 叠加了散点图 和 每组数据的均值library(ggplot2)ggplot(data=winered, aes(x = factor(quality), y = volatile.acidity)) + geom_jitter(alpha = .3, color = '#9bacb9') + geom_boxplot(alpha =...原创 2018-08-06 03:58:23 · 6986 阅读 · 0 评论 -
R 数据类型之factor
FactorsThe term factor refers to a statistical data type used to store categorical variables. categorical variable 对比 continuous variable原创 2018-07-19 12:08:31 · 1843 阅读 · 0 评论 -
pandas筛选数据时可能会遇到的报错
df[df['director'].str.contains('|')]## outputValueError: cannot index with vector containing NA / NaN values## 仔细查看数据df.director.str.contains('|').unique()## outputarray([True, nan], dtype=obj...原创 2018-07-12 19:29:07 · 12845 阅读 · 1 评论 -
pandas 之 value_counts(), unique()
.value_counts() 统计不同值的个数,不包括 NaN;unique() 用来展示每个不同的值,包括 NaN。test = pd.DataFrame({'a': [1, 1, np.NaN, 2, 3], 'b': [1, 2, 3, 4, 5], 'c': np.random.randn(5)})test[...原创 2018-07-12 18:09:57 · 6590 阅读 · 0 评论 -
np.r_的用法
# 读取前1~20行以及48、49行的数据 (note: pandas 的行标签从0开始)ind = list(range(20)) + list([47,48])df.iloc[ind]原创 2018-07-12 14:59:17 · 1208 阅读 · 0 评论 -
pandas中 isnull() 和 any() 的联合使用
# 查看各列是否存在空值,True表示有空值movie_data.isnull().any(axis=0)## outputid Falseimdb_id Truepopularity Falsebudget Falserevenue ...原创 2018-07-12 12:01:15 · 11712 阅读 · 0 评论 -
numpy,pandas,matplotlib速查手册
速查手册: numpy cheat sheet pandas cheat sheet matplotlib cheat sheet原创 2018-07-12 10:51:06 · 1137 阅读 · 0 评论 -
R 基本使用
# 查看当前工作目录getwd()# 设置当前工作目录setwd('/Users/jupyter/lesson2')# 读入数据statesInfo <- read.csv('statesData.csv')# 获取子数据集subset(statesInfo, state.region == 1)# 另一种方式 获取子数据集statesInfo[statesInfo...原创 2018-07-17 22:48:10 · 335 阅读 · 0 评论 -
magic 关键字
在分辨率较高的屏幕(例如 Retina 显示屏)上,notebook 中的默认图像可能会显得模糊。可以在 %matplotlib inline 之后使用 %config InlineBackend.figure_format = 'retina' 来呈现分辨率较高的图像...原创 2018-07-12 09:33:33 · 397 阅读 · 0 评论 -
R 画图遇到的问题
> ggplot(aes(x = age, y = friend_count), data = pf) + coord_cartesian(xlim = c(13, 90)) + geom_point(alpha = 1/20, position = position_jitter(h = 0), color = 'orange')...原创 2018-07-23 14:21:34 · 1335 阅读 · 0 评论 -
pandas 中 .stack() 的使用
有时候需要将特征名称转化为变量,也就是将数据集由横向改为纵向,或者为转秩。使用场景如下:# 数据集In [5]: testOut[5]: tweet_id doggo floofer pupper puppo0 675003128568291329 None None None None1 786233965241827333 Non...原创 2018-07-04 23:55:59 · 6180 阅读 · 0 评论 -
pandas 利用 正则表达式 从文本中提取数字
需要从text特征中提取形如 13.5/10 这样的字符串,再分别提取分子分母。 1)可以利用 str.extract() 方法。 2)利用正则表达式 \d+\.?\d*\/\d+ 进行匹配 3)再利用 .split() 方法提取分子分母代码: test.text.tolist()# output['This is Bella. She hopes her smile m...原创 2018-07-04 23:12:06 · 19273 阅读 · 0 评论 -
NumPy简介
NumPy简介NumPy 代表 Numerical Python,是python中科学计算的基础包。1 为何要使用 NumPyNumPy 用c语言编写,运行速度快:import time import numpy as np x = np.random.random(100000000)## plain python计算平均值start = time.time()...原创 2018-07-11 15:54:26 · 308 阅读 · 0 评论 -
R 分析两个变量
条件均值install.packages('dplyr')library(dplyr)# 其中的常见函数filter()group_by()mutate()arrange() 更多关于 dplyr 包的信息 Hadley Wickham 于 2014 年在 useR 公布的教程: dplyr 简介 dplyr 教程(第 1 部分) dplyr ...原创 2018-07-23 11:21:29 · 2078 阅读 · 0 评论 -
R 探索多变量
34 Plotting Conditional Summariespf.fc_by_age_gender ggplot(data = pf.fc_by_age_gender,aes(x = age, y = median_friend_count)) + geom_line(color = age) 注意这里的图像跟直方图的区别。之前有一个 直方图/频率多...原创 2018-07-24 22:19:37 · 616 阅读 · 0 评论 -
matplotlib 同一个画布绘制多张图,主次刻度,竖线
import matplotlib.pyplot as pltimport seaborn as snssns.set()# 要分析的数据profit = df_profit.groupby('release_year')['profit'].agg(['mean','sum','count'])# 在同一个画布中绘制两张图plt.figure(figsize=(15,15))#...原创 2018-07-13 17:32:17 · 11398 阅读 · 0 评论 -
pandas 筛选数据,同时满足多个条件
top10_dire = df_dire.groupby('dire').id.agg('count').sort_values(ascending=False)[:10]## top10_diredireWoody Allen 46Clint Eastwood 34Martin Scorsese 31Steven Spielberg 3...原创 2018-07-13 17:38:11 · 19133 阅读 · 1 评论 -
R 频率多边形
# 改变y轴坐标,以频率作为标度qplot(x = friend_count, y = ..count../sum(..count..), data = subset(pf, !is.na(gender)), xlab = 'Friend Count', ylab = 'Proportion of Users with that friend c...原创 2018-07-22 19:33:52 · 1350 阅读 · 0 评论 -
R 点重合处理,坐标变换
绘制散点图时,经常会有点过分重合的情况,为了更好地进行可视化,可以使用以下方法进行改善。一. 设置透明度ggplot(aes(x = age, y = friend_count), data = pf) + geom_point(alpha = 1/10) + xlim(13, 90)二. 设置抖动ggplot(aes(x = age, y = friend_count...原创 2018-07-22 15:36:47 · 1469 阅读 · 0 评论 -
R 分析单一变量 总结
查看单一变量变量类型, 分布状态, 是否有缺失值和异常值。可视化工具直方图, 箱线图, 频数多边形。调整直方图组距, x轴,y轴的限制, 变量的对数变换, 变量的二进制变换。...原创 2018-07-21 18:19:47 · 1143 阅读 · 0 评论 -
R 变量的逻辑转换
# 读取数据pf <- read.csv('pseudo_facebook.tsv', sep = '\t')> summary(pf$mobile_likes) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0 0.0 4.0 106.1 46.0 25111.0 > summar...原创 2018-07-21 17:53:06 · 3604 阅读 · 0 评论 -
R install.packages() 设置国内CRAN镜像
使用 install.packages() 安装R包时,总是比较慢,有时甚至安装失败,失败情形如下:> install.packages('gridExtra')Warning in install.packages : unable to access index for repository https://cran.rstudio.com/src/contrib: 无法打...原创 2018-07-20 22:45:22 · 42313 阅读 · 4 评论 -
R 中进行对数变换
R 中进行对数变换说明:这篇文章是我在学习 R 时看到的,感觉很有用,就翻译了过来。原文:Log Transformations for Skewed and Wide Distributions—– 正文分割线 —– 当数据分布大致对称时,用均值和标准差对数据进行归一化是非常有意义的。在本文中,基于第4章 实用数据科学与R,作者展示了一种可以使某些分布更加对称的转换。是否对...翻译 2018-07-20 18:59:14 · 41915 阅读 · 0 评论 -
python 中 zip 的使用及 * 的使用
zip: 将相同维度的值合并在一起。a = [10, 20]b = [3, 4]list(zip(a,b))## output[(10, 3), (20, 4)]顺带说一下python中函数的参数 *args 的含义:让函数接受不定长参数。dic = {'a':0, 'b':1, 'c':2}dic.items()## outputdict_items([('a',...原创 2018-07-28 22:21:51 · 1239 阅读 · 0 评论 -
pandas删除含有空值的行
df.dropna(axis=0, how='any', inplace=True)axis:0-行操作(默认),1-列操作 how:any-只要有空值就删除(默认),all-全部为空值才删除 inplace:False-返回新的数据集(默认),True-在愿数据集上操作...原创 2018-07-14 13:30:16 · 114555 阅读 · 2 评论 -
R 中对数据进行汇总
f <- read.delim('pseudo_facebook.tsv')> summary(f) userid age dob_day dob_year dob_month Min. :1000008 Min. : 13.00 Min. : 1.00 Min. ...原创 2018-07-19 23:05:58 · 797 阅读 · 0 评论 -
pandas 中True, False的妙用
True, False能方便地用来计算总和(即个数)和均值(即占比)。 data['Comedy'] = data['genres'].str.contains('Comedy')data['Drama'] = data['genres'].str.contains('Drama')## 注意,这里不能用count,count也会计入false的个数result = data.gro...原创 2018-07-13 20:22:38 · 6571 阅读 · 0 评论 -
R 笔记
top-coded原创 2018-07-19 18:56:20 · 259 阅读 · 0 评论 -
ggplot2 绘图
facet_wrap(formula) facet_wrap(~variable)facet_grid(formula) facet_grid(vertical ~ horizontal)pf &amp;amp;amp;amp;amp;amp;lt;- read.delim('pseudo_facebook.tsv')qplot(x=dob_day, data=pf) + scale_x_continuous(breaks...原创 2018-07-19 18:32:27 · 622 阅读 · 0 评论 -
从网络获取数据
示例代码:import osimport requestsimport pandas as pd# 发送get请求,获取网页数据(tsv文件)url = 'https://raw.githubusercontent.com/udacity/new-dand-advanced-china/master/%E6%95%B0%E6%8D%AE%E6%B8%85%E6%B4%97/WeRat...原创 2018-06-29 10:11:02 · 431 阅读 · 0 评论 -
subprocess模块call的用法
subprocess模块用来创建新的进程,连接到其stdin、stdout、stderr管道并获取它们的返回码。from subprocess import callcall(['python3','-m','nbconvert','assessing.ipynb'])## output,若成功,返回代码0,失败则返回大于0的数字0等同于在shell中直接运行命令:guodeMa...原创 2018-07-10 23:27:37 · 34987 阅读 · 3 评论 -
The Difference Between Assessing and Exploring Data
数据评估 和 数据探索 的不同数据评估(data assessment)属于数据整理的一部分;数据探索(data exploration)属于探索性数据分析(EDA)的一部分。数据整理(data wrangling)重在收集正确的数据,评估数据的质量和结构,然后清理数据;但是这些并不会改进分析、也不会改善可视化及模型。探索性数据分析(EDA) 重在探索数据并增强数据,以最大限度的发...原创 2018-05-06 22:45:32 · 187 阅读 · 0 评论 -
Unclean Data: Low Quality vs. Untidy
Dirty Data vs. Messy Data有两类不干净的数据:脏数据(Dirty Data)和杂乱数据(Messy Data)。打个比方,在一个脏乱的房间里,脏数据(Dirty Data)就像房间内的垃圾、灰尘、香蕉皮等,杂乱数据(Messy Data)就像房间里胡乱放置的东西、衣服、书等。Dirty Data脏数据(Dirty Data)通常对应于内容问题(conte...原创 2018-05-03 17:36:28 · 818 阅读 · 0 评论 -
数据评估
Data Assessment: Types and Steps评估数据的两种方式:目测方式评估(Visually Assessment),编程方式评估(Programmatic Assessment)。Type 1: Visually Assessment目测方式评估:用 pandas 或电子应用表格打开并查看所有数据。Type 2: Programmatic Asses...原创 2018-05-04 22:21:30 · 1234 阅读 · 0 评论 -
糖尿病临床试验 数据分析
糖尿病临床试验 数据分析糖尿病临床试验 数据分析项目背景胰岛素工作原理临床试验及其指标医疗数据 常见问题及原因数据评估目测评估编程评估后记注脚项目背景糖尿病(尤其是2型糖尿病)算得上是21世纪最大的流行病,在我国更是情况堪忧[^footnote]。20世纪20年代之前,人们闻“糖”色变,因为无法治疗,患病就相当于慢性死亡。这种病会让血糖升高...原创 2018-05-06 15:51:00 · 4616 阅读 · 3 评论 -
Regular Expressions
正则表达式练习:RegexOne原创 2018-05-14 11:54:42 · 200 阅读 · 0 评论 -
Pandas 中的 string 方法
Pandas 中的 string 方法 官网最详细的 string 操作: string handling原创 2018-05-13 20:53:02 · 2070 阅读 · 0 评论 -
用编程方法进行 数据清理
用编程方法进行 数据清理 Programmatic Data Cleaning: 1. Define 2. Code 3. Test步骤一: 定义(Dfine)确定处理问题的方案,并以文字形式记录下来。步骤二:代码(Code)然后,将这些文字转化为代码。步骤三:测试(Test)最后,检验数据,看代码是否奏效。...原创 2018-05-11 16:11:18 · 1314 阅读 · 0 评论 -
Python: Control Flow
Python: Control Flowconditional statementsfor and while loopsbreak and continueuseful built-in functionslist comprehensions原创 2018-05-11 08:58:46 · 664 阅读 · 0 评论 -
Python: Naming Variables
Python: Variables一undersore,number,normal letter二can not use reserved words三pythonic way naming convention: snake case原创 2018-05-10 07:43:03 · 293 阅读 · 0 评论