
数据分析
glittledream
这个作者很懒,什么都没留下…
展开
-
pandas读取excel文件
首先我们读取以下excel文件:有六个字段和19973条数据在pycharm中读取代码如下:import pandas as pdpeople = read_excel("C:/Users/Administrator/Desktop/People.xlsx")#读取print(people.shape)#查看数据维度print(people.columns)#查看数据...原创 2018-12-13 08:52:50 · 11416 阅读 · 0 评论 -
数据产品 面试 爱奇艺
爱奇艺 数据产品实习生自我介绍 3分钟问业务方面的内容,两个问题:1.去年过年时期的活跃用户比今年的多,分析原因(从内部数据分析 ,不从竞品分析) 2.去年广告收入比今年高,但流量比去年多,分析原因内连接,外连接,交叉连接,交叉连接会造成什么后果说两个,可以优化查询的方法如果各个...原创 2019-03-08 20:04:55 · 586 阅读 · 0 评论 -
pandas 求和,求平均,统计
有这样一张表:求和,求平均:import pandas as pdstudent = pd.read_excel("C:/Users/Administrator/Desktop/Students.xlsx",index_col="ID")temp = student[["Test_1","Test_2","Test_3"]]student["total"] = temp原创 2019-02-24 13:55:52 · 116931 阅读 · 2 评论 -
pandas 分割数据表
有这样一张表要将姓和名分开存放:shi使用Series.str.split(pat=None, n=-1, expand=False):参数pat为按照参照什么符号来分,expand=true返回dataframe,fales返回series,n为切出来的字符串保留个数最终将字符串加到数据表里:参考官网...原创 2019-02-24 10:47:41 · 6857 阅读 · 0 评论 -
panads 数据筛选 过滤
有这样一数据集: 筛选age 在18到30,score在85到100import pandas as pdstudents = pd.read_excel("C:/Users/Administrator/Desktop/Students.xlsx",index_col="ID")students = students.loc[students.Age.apply(lambda ...原创 2019-01-31 08:49:20 · 518 阅读 · 0 评论 -
pandas 数据多重排序
有这样数据集:按照Price和Worthy排序import pandas as pdproducts = pd.read_excel("C:/Users/Administrator/Desktop/List.xlsx",index_col="ID")products.sort_values(by=["Worthy","Price"],inplace=True,ascending...原创 2019-01-31 08:40:40 · 2821 阅读 · 0 评论 -
panads多表联合查询
有这样一个数据集:两张表用ID关联着一、通过ID联合查询import pandas as pdstudents = pd.read_excel("C:/Users/Administrator/Desktop/Student_Score.xlsx",sheet_name="Students")scores = pd.read_excel("C:/Users/Administra...原创 2019-02-16 11:42:15 · 2179 阅读 · 0 评论 -
pandas 函数填充 计算列
首先是这样一个数据集:进行价格计算:import pandas as pdbooks = pd.read_excel("C:/Users/Administrator/Desktop/Books.xlsx",index_col="ID")books.Price = books.ListPrice*books.Discountbooks["Price"] = books["Li...原创 2019-01-27 21:32:01 · 1212 阅读 · 0 评论 -
pandas 数据区域读取和数字填充
一.数据区域读取和数据填充有时候excel文件数据杂乱: 用pandas区域读取和填充:import pandas as pdfrom datetime import timedelta,datedata = pd.read_excel("C:/Users/Administrator/Desktop/Books.xlsx",encoding="utf-8",skiprow...原创 2018-12-18 09:02:18 · 3039 阅读 · 0 评论 -
pandas创建excel文件
pandas包是python中用于数据分析的包创建excel文件代码如下:import pandas as pddf = Dateframe({"id":[1,2,3],"name":["Nick","Bob","Tom"})df.to_excel("路径名+文件名")print(done!)print(df)df为数据集,写入以后就可以打开所创建的文件,会发原创 2018-12-12 08:40:16 · 12649 阅读 · 6 评论 -
pandas 消除重复数据
有这样一组重复数据:一、消除重复数据使用drop_duplicates方法(DataFrame.drop_duplicates(subset=None, keep='first', inplace=False))subset参数:根据哪个字段进行重复筛选(多个字段就写成列表形式)inplace参数:是否在原数据集更改keep参数:是从头开始筛选还是从末尾数据开始筛...原创 2019-03-10 16:58:57 · 9784 阅读 · 0 评论