小废物养成记-优快云博客

原创连接数据库

import pymysqlimport pandas as pddef get_mysql_data(sql): """ 提取mysql中的数据并返回成dataframe 参数只需要sql语句 """ conn = pymysql.connect( host='*********', user='******', password='*********', db='*********',

2021-01-18 11:11:26 208

原创 Python3-Cookbook-Study Notes chap6:数据编码和处理

1.读写CSV数据import csvwith open('stocks.csv') as f: f_csv = csv.reader(f) headers = next(f_csv) for row in f_csv: # Process row ...2.读写JSON数据import jsonjson_str = json.dumps(data)3.解析简单的XML数据from urllib.request import urlo

2020-06-23 11:26:03 234

原创 Python3-Cookbook-Study Notes chap5:文件与IO

1.读写文本数据# 使用带有 rt 模式的 open() 函数读取文本文件# Read the entire file as a single stringwith open('somefile.txt', 'rt') as f: data = f.read()# Iterate over the lines of the filewith open('somefile.txt', 'rt') as f: for line in f: # process line

2020-06-06 17:37:25 300

原创 Python3-Cookbook-Study Notes chap4:迭代器与生成器

1.

2020-06-06 11:46:01 225

原创 Python3-Cookbook-Study Notes chap3:数字日期和时间

1.数字的四舍五入 —— round(value, ndigits)2.执行精确的浮点数运算# 想更加精确(并能容忍一定的性能损耗) —— decimal 模块from decimal import Decimal# decimal 模块的一个主要特征是允许你控制计算的每一方面，包括数字位数和四舍五入运算a = Decimal('4.2')b = Decimal('2.1')3.数字的格式化输出# 格式化输出单个数字的时候，可以使用内置的 format() 函数x = 1234.567

2020-06-05 21:38:24 245

原创 Python3-Cookbook-Study Notes chap2:字符串和文本

1.使用多个界定符分割字符串 —— re.split()import re# re.split()为分隔符指定多个正则模式line = 'asdf fjdk; afed, fjek,asdf, foo're.split(r'[;,\s]\s*', line)# ['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']# 需要特别注意的是正则表达式中是否包含一个括号捕获分组。如果使用了捕获分组，那么被匹配的文本也将出现在结果列表中fields = re

2020-06-04 20:48:57 291

原创 Python3-Cookbook-Study Notes chap1:数据结构和算法

1.数据结构的集合操作模块 —— collections2.解压可迭代对象赋值给多个变量 —— 使用星号表达式# 剔除最高最低分，统计平均分def drop_first_last(grades): first,*middle,last = grades # middle是一个列表类型变量 return avg(middle)3.字符串分割 —— line.split(’:’)保留有限历史记录 —— collections.deque# 在多行上面做简单的文本匹配，并返回匹配所在行的最后

2020-06-04 13:55:08 305

原创 python 技巧学习-2020.06

1.字符串清洗df.translate(character_map)# unicodedata 包：combining()函数2.对迭代器进行切片import itertoolss = itertools.islice(range(50),10,20)

2020-06-03 20:44:51 185

原创数据分析学习-数据清洗7步法

Step1 : read csvdata_raw = pd.read_csv('../input/titanicdataset-traincsv/train.csv')data_rawStep2 : preview datadata_raw.info()data_raw.describe(include='all')Step3: check null value for every...

2020-04-07 21:39:00 453

原创 python-Pandas_Study Record

2020-04-07读取时抽取1%import pandas as pdimport numpy as npdf = pd.read_csv("big_data.csv", # 使用skiprows参数skiprows = lambda x:x>0 and # x>0保证首行选入np.random.rand() > 0.01)...

2020-04-07 21:16:16 188

原创玩转numpy

numpy - 通用1. 忽略所有numpy警告defaults = np.seterr(all="ignore")numpy - 数组1. 创建数组# 创建一个10*10的0数组Z = np.zeros((10,10))print(Z)# 长度为10的0数组，第4个值为1Z = np.zeros(10)Z[3] = 1# 创建一个从0到8的3*3数组Z = np.a...

2019-12-27 10:59:55 1151

原创 pandas DataFrame 数据筛选

数值筛选单条件筛选# 筛选B列大于0的数据df[df['B'] > 0]多条件筛选# 筛选B列大于0且C列小于1的数据df[(df['B'] > 0) & (df['C'] < 1)]# 筛选B列大于0或C列小于1的数据df[(df['B'] > 0) | (df['C'] < 1)]# 选择某列等于多个数值或者字符串df[df['B...

2019-12-09 17:11:09 2201

原创数据分析面试笔试资料汇总

网易-数据分析师笔试1、一堆石子，共80颗、甲乙轮流取，每次只能取2、4、6颗，最后取的人赢，甲先取，则谁赢？Ans：乙必赢。只需要保证最后剩8枚就胜了，要保证最后剩8枚，则必须要保证每一个回合内取的数是一个可控的固定数，显然这个数字是8，所以只需要保证第一次取完后，剩下的数字是8的倍数，就一定能胜。80除以8正好除尽，故而，无论甲去的是多少，乙都能保证每回合取的数为8，最后取完的人一定是乙。...

2019-04-18 16:28:40 955

原创记录一下我的数据分析师养成之路

学习书目《统计学》很好的统计学入门书籍，对统计学的基础概念介绍的很详细，浅显易懂大概5-8个小时就可以快速看完。《R语言实战》本科上学用R语言的时候参考过一点这本书，重新系统看了一遍还是很不错的书。《SQL必知必会》...

2019-04-18 15:04:41 708

chenlan_Cynthia的博客