- 博客(14)
- 收藏
- 关注
原创 连接数据库
import pymysqlimport pandas as pddef get_mysql_data(sql): """ 提取mysql中的数据并返回成dataframe 参数只需要sql语句 """ conn = pymysql.connect( host='*********', user='******', password='*********', db='*********',
2021-01-18 11:11:26
185
原创 Python3-Cookbook-Study Notes chap6:数据编码和处理
1.读写CSV数据import csvwith open('stocks.csv') as f: f_csv = csv.reader(f) headers = next(f_csv) for row in f_csv: # Process row ...2.读写JSON数据import jsonjson_str = json.dumps(data)3.解析简单的XML数据from urllib.request import urlo
2020-06-23 11:26:03
206
原创 Python3-Cookbook-Study Notes chap5:文件与IO
1.读写文本数据# 使用带有 rt 模式的 open() 函数读取文本文件# Read the entire file as a single stringwith open('somefile.txt', 'rt') as f: data = f.read()# Iterate over the lines of the filewith open('somefile.txt', 'rt') as f: for line in f: # process line
2020-06-06 17:37:25
217
原创 Python3-Cookbook-Study Notes chap3:数字日期和时间
1.数字的四舍五入 —— round(value, ndigits)2.执行精确的浮点数运算# 想更加精确(并能容忍一定的性能损耗) —— decimal 模块from decimal import Decimal# decimal 模块的一个主要特征是允许你控制计算的每一方面,包括数字位数和四舍五入运算a = Decimal('4.2')b = Decimal('2.1')3.数字的格式化输出# 格式化输出单个数字的时候,可以使用内置的 format() 函数x = 1234.567
2020-06-05 21:38:24
215
原创 Python3-Cookbook-Study Notes chap2:字符串和文本
1.使用多个界定符分割字符串 —— re.split()import re# re.split()为分隔符指定多个正则模式line = 'asdf fjdk; afed, fjek,asdf, foo're.split(r'[;,\s]\s*', line)# ['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']# 需要特别注意的是正则表达式中是否包含一个括号捕获分组。 如果使用了捕获分组,那么被匹配的文本也将出现在结果列表中fields = re
2020-06-04 20:48:57
266
原创 Python3-Cookbook-Study Notes chap1:数据结构和算法
1.数据结构的集合操作模块 —— collections2.解压可迭代对象赋值给多个变量 —— 使用星号表达式# 剔除最高最低分,统计平均分def drop_first_last(grades): first,*middle,last = grades # middle是一个列表类型变量 return avg(middle)3.字符串分割 —— line.split(’:’)保留有限历史记录 —— collections.deque# 在多行上面做简单的文本匹配, 并返回匹配所在行的最后
2020-06-04 13:55:08
281
原创 python 技巧学习-2020.06
1.字符串清洗df.translate(character_map)# unicodedata 包:combining()函数2.对迭代器进行切片import itertoolss = itertools.islice(range(50),10,20)
2020-06-03 20:44:51
166
原创 数据分析学习-数据清洗7步法
Step1 : read csvdata_raw = pd.read_csv('../input/titanicdataset-traincsv/train.csv')data_rawStep2 : preview datadata_raw.info()data_raw.describe(include='all')Step3: check null value for every...
2020-04-07 21:39:00
412
原创 python-Pandas_Study Record
2020-04-07读取时抽取1%import pandas as pdimport numpy as npdf = pd.read_csv("big_data.csv", # 使用skiprows参数skiprows = lambda x:x>0 and # x>0保证首行选入np.random.rand() > 0.01)...
2020-04-07 21:16:16
162
原创 玩转numpy
numpy - 通用1. 忽略所有numpy警告defaults = np.seterr(all="ignore")numpy - 数组1. 创建数组# 创建一个10*10的0数组Z = np.zeros((10,10))print(Z)# 长度为10的0数组,第4个值为1Z = np.zeros(10)Z[3] = 1# 创建一个从0到8的3*3数组Z = np.a...
2019-12-27 10:59:55
1106
原创 pandas DataFrame 数据筛选
数值筛选单条件筛选# 筛选B列大于0的数据df[df['B'] > 0]多条件筛选# 筛选B列大于0且C列小于1的数据df[(df['B'] > 0) & (df['C'] < 1)]# 筛选B列大于0或C列小于1的数据df[(df['B'] > 0) | (df['C'] < 1)]# 选择某列等于多个数值或者字符串df[df['B...
2019-12-09 17:11:09
2019
原创 数据分析面试笔试资料汇总
网易-数据分析师笔试1、一堆石子,共80颗、甲乙轮流取,每次只能取2、4、6颗,最后取的人赢,甲先取,则谁赢?Ans:乙必赢。只需要保证最后剩8枚就胜了,要保证最后剩8枚,则必须要保证每一个回合内取的数是一个可控的固定数,显然这个数字是8,所以只需要保证第一次取完后,剩下的数字是8的倍数,就一定能胜。80除以8正好除尽,故而,无论甲去的是多少,乙都能保证每回合取的数为8,最后取完的人一定是乙。...
2019-04-18 16:28:40
922
原创 记录一下我的数据分析师养成之路
学习书目《统计学》很好的统计学入门书籍,对统计学的基础概念介绍的很详细,浅显易懂大概5-8个小时就可以快速看完。《R语言实战》本科上学用R语言的时候参考过一点这本书,重新系统看了一遍还是很不错的书。《SQL必知必会》...
2019-04-18 15:04:41
674
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人