自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 pandas综合

1.2002 年-2018 年上海机动车拍照拍卖import pandas as pdimport numpy as npdf_car = pd.read_csv('data/2002年-2018年上海机动车拍照拍卖.csv')print(df_car.shape)print(df_car.info())print(df_car.head())#(1) 找出哪轮拍卖的中标率首次小于...

2020-05-01 23:46:42 244

原创 pandas第五次打卡

import numpy as npimport pandas as pddf = pd.read_csv('Documents/Pandas教程/joyful-pandas-master/data/table.csv')df.head()一、append与assignappend方法(a)利用序列添加行(必须指定name)df_append = df.loc[:3,['Gen...

2020-05-01 14:04:53 187

原创 pandas第四次打卡

第4章 变形import numpy as npimport pandas as pd df = pd.read_csv('../data/table.csv')df.head()一、透视表1、pivot一般状态下,数据在DataFrame会以压缩(stacked)状态存放,例如上面的Gender,两个类别被叠在一列中,pivot函数可将某一列作为新的cols:df.pivot(i...

2020-04-28 23:52:29 164

原创 爬虫第四次打卡

腾讯新闻热点爬取1.了解ajax加载2.通过chrome的开发者工具,监控网络请求,并分析3.用selenium完成爬虫4.具体流程如下:用selenium爬取https://news.qq.com/ 的热点精选热点精选至少爬50个出来,存储成csv。import timefrom selenium import webdriverdriver=webdriver.Chrome...

2020-04-27 23:23:05 161

原创 pandas第三次打卡

一、SAC过程:1.1 内涵:SAC指的是分组操作中的split-apply-combine过程;其中split指基于某一些规则,将数据拆分成若干组,apply是指对每一组独立地使用函数,combine指将每一组的结果组合成某一类数据结构。1.2 apply过程:在改过程中,往往会遇到四类问题:整合(Aggregation) —— 即分组计算统计量(如求均值、求每组元素个数)变换(T...

2020-04-26 23:02:32 183

原创 爬虫第三次打卡

静态网页静态网页就是我们上一篇写的那种 html 页面,后缀为 .html 的这种文件,直接部署到或者是放到某个 web 容器上,就可以在浏览器通过链接直接访问到了。比如个人通过github pages搭建blog,就是静态网页的代表,这种网页的内容是通过纯粹的 HTML 代码来书写,包括一些资源文件:图片、视频等内容的引入都是使用 HTML 标签来完成的。它的好处当然是加载速度快,编写简单,...

2020-04-25 23:10:42 231

原创 爬虫第二次打卡

一、BeautifulSoup库BeautifulSoup的概念和入门什么是BeautifulSoup?Beautiful Soup 是一个HTML/XML的解析器,主要用于解析和提取 HTML/XML 数据。它基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。BeautifulSoup 用来解析HTML 比较简单,API非常人...

2020-04-24 21:46:50 141

转载 pandas第二次打卡

一、单级索引三类常用的索引方法:loc表示位置索引loc表示标签索引[]也具有很大的便利性,各有特点(a).loc方法(注意:所有在loc中使用的切片全部包含右端点!)① 单行索引:df.loc[1103]② 多行索引:df.loc[[1102,2304]]df.loc[1304:].head()df.loc[2402::-1].head() 逆项③ 单列索引:df.loc[:...

2020-04-23 22:20:40 204

原创 爬虫第一次打卡

url="https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0"data={ 'type': 'movie', 'tag': '热门', 'sort':...

2020-04-21 23:58:25 443

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除