- 博客(16)
- 收藏
- 关注
原创 joyful pandas 05 变形
练习Ex1:美国非法药物数据集现有一份关于美国非法药物的数据集,其中SubstanceName, DrugReports分别指药物名称和报告数量:import pandas as pddf = pd.read_csv('../data/drugs.csv').sort_values(['State','COUNTY','SubstanceName'],ignore_index=True)df.head(3) YYYY State
2021-03-24 20:42:19
190
原创 爬取猫眼电影排行——第一版
要求提取出猫眼电影的top100的电影名称、时间、评分图片等信息,提取的URL链接为:https://maoyan.com/board/4获取的信息需要以文件的形式保存下来思路流程图如下所示:import requests# 定义一个可用来爬取HTML的链接def get_one_page(url): headers = { 'User-Agent':'Mozilla/4.0(compatible; MSIE 5.5; Windows NT)' }.
2021-03-11 15:42:52
489
原创 【崔庆才-python网络爬虫项目实战】requests
requests库相较于前面介绍的urllib库而言,requests的操作实际上更加便捷。实例引入下面通过一个实例进行演示import requestsr = requests.get('http://www.baidu.com/')print(type(r))print(r.status_code)print(type(r.text))print(r.cookies)print(r.text)<class 'requests.models.Response'>2.
2021-03-09 14:33:37
422
原创 链家爬虫分析 01
爬取上海市二手房信息本文通过python爬取链家上面上海房价信息,检测这几天自己的学习成果:通过requests库进行爬取上海市链家前十页的具体信息,并获取给出户型的单位均价的最大值、最小值以及平均值。import requestsimport time# 设置循环获取前十页的内容unitPriceStr_title={}for page in range(1,11): params={ 'cityId': 310000, # 城市id,310000.
2021-03-08 22:36:59
368
原创 【崔庆才-python网络爬虫项目实战】urllib 02
处理异常urllib的异常处理模块中包含,URLError和HTTPError两种类型URLErrorURLError继承自OSerror,具有一个属性即reason下面通过实例进行展示:from urllib import request,errortry: response = request.urlopen('http://cuiqingcai.com/index.htm')except error.URLError as e: print(e.reason)Not
2021-03-07 10:36:14
158
原创 【崔庆才-python网络爬虫项目实战】urllib 02
处理异常urllib的异常处理模块中包含,URLError和HTTPError两种类型URLErrorURLError继承自OSerror,具有一个属性即reason下面通过实例进行展示:from urllib import request,errortry: response = request.urlopen('http://cuiqingcai.com/index.htm')except error.URLError as e: print(e.reason)Not
2021-03-06 22:42:06
302
原创 【崔庆才-python爬虫与项目实战】urllib介绍 01
python爬虫与项目实战,基本库的使用——urllib库,第一部分request的使用
2021-03-06 16:44:16
351
原创 【joyful pandas 05】变形
import numpy as npimport pandas as pd以下是本次课的思维导图的笔记内容【练一练】在上面的边际汇总例子中,行或列的汇总为新表中行元素或者列元素的平均值,而总体的汇总为新表中四个元素的平均值。这种关系一定成立吗?若不成立,请给出一个例子来说明。这里沿用前面课本给的数据进行运算,这里我先假设这种关系不成立,那么便有以下情况总体的汇总也可以是行列的汇总df = pd.DataFrame({'Name':['San Zhang', 'San Zhang',
2020-12-27 20:26:30
319
4
原创 【joyful pandas 04】分组
来自datawhale组队学习,groupby是一种十分重要且有用的分组办法,在数据分析中扮演着十分重要的作用,本篇主要介绍了groupby的分组、变换、过滤,以及其必备的基本办法,和高阶处理办法。
2020-12-25 15:54:27
302
原创 【joyful pandas 03】索引
索引通过索引进行数据切片、其中包含iloc和loc方法的详解。通过索引构造矩阵,以及构造多层索引,索引值的替换、修改。基于索引的计算。
2020-12-22 23:29:25
272
2
原创 【joyful pandas 02】pandas基础
pandas的基础知识,包括数据读取、写入、储存,以及使用的很多很多的简便方式,包括神器apply、数据的替换等等,应有尽有,还有一些地方没能完善,等楼主好好补课回来写完它。
2020-12-19 13:20:10
513
原创 【joyful pandas 01】基础知识03
这是python基础的一部分练习题。包括列表推导式的使用、numpy的具体应用,内容丰富详实。
2020-12-16 13:08:11
256
3
原创 【joyful pandas 01】基础知识02
Numpy的自学技术,重点参考Joyful python,内容包括很多数组构造、随机数生成、线性代数的运用等等
2020-12-15 22:06:30
129
原创 【joyful pandas 01】基础知识1
数据分析的学习是一个逐渐的过程,自己之前自学的话花了很长的时间与很大的精力,现在再从头来整理一下这些内容。里面包裹列表推导式、zip和map以及enumerate等简单函数的用法,对初学者比较友好,希望朋友一起学习
2020-12-14 13:08:47
181
1
原创 R语言介绍
R语言介绍我们为什么要用R其他的数据分析工具实际上,对于像我一样的大学生而言(我是经管类),我们都会使用excel进行简单的数据分析操作,而excel的缺点是非常显然,其数据处理能力十分有限,基本上就只能做一些傻瓜式的操作。而我们专业的要求是学会SPSS,对我而言SPSS的数据处理能力、数据可视化、分析能力自然比excel高级很多,但是作为一种傻瓜式的操作,其实SPSS也有很大的缺陷,例如,IBM公司为了能让降低数据处理的门槛,其主要函数、方法基本上没有被更新过,现阶段也不过是在对用户操作界面进行调整
2020-12-13 17:29:28
593
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人