
数据处理与分析
文章平均质量分 86
瑞行AI
这个作者很懒,什么都没留下…
展开
-
Python3pandas库DataFrame的分组,拼接,统计运算等用法(基础整理)
import pandas as pdimport numpy as npsalaries=pd.DataFrame({ 'name':['BOSS','Lilei','Lilei','Han','BOSS','BOSS','Han','BOSS'], 'Year':[2016,2016,2016,2016,2017,2017,2017,2017], 'Salary':[原创 2017-10-21 02:43:56 · 34720 阅读 · 1 评论 -
Python3 Nosql数据库操作包PyMongo
http://api.mongodb.com/python/current/原创 2018-08-06 17:54:31 · 753 阅读 · 0 评论 -
Python3结构化数据库操作包pymysql
CREATE TABLE `test` ( `id` int(10) NOT NULL AUTO_INCREMENT, `name` varchar(20) DEFAULT NULL, `age` int(10) DEFAULT NULL, PRIMARY KEY (`id`)) ENGINE=InnoDB DEFAULT CHARSET=utf8;原创 2018-07-15 00:37:25 · 996 阅读 · 0 评论 -
MySQL数据表约束筛选v.s.行列运算
本文是个人学习笔记,内容主要包含对数据表加约束筛选行列、对数据表里的行列进行运算,学习文档来自易百教程:http://www.yiibai.com/mysql/GROUP BY//DISTINCT+ORDER BY//ORDER BYselect state from customers group by state; #有顺序select distinct state fro...原创 2018-01-18 17:46:27 · 324 阅读 · 0 评论 -
MySQL基本框架及命令
本文是个人学习笔记,内容主要涉及SQL中对数据表的基本操作,学习文档来自w3school:http://www.w3school.com.cn/sql/index.aspSQL 是一门 ANSI 的标准计算机语言,用来访问和操作数据库系统。SQL 语句用于取回和更新数据库中的数据。SQL 对大小写不敏感!某些数据库系统要求在每条 SQL 命令的末端使用分号,有些则不必在每条 SQL 语句之后使...原创 2018-01-03 15:33:27 · 1455 阅读 · 0 评论 -
MySQL数据表对数据列排序(技巧)
本文是个人学习笔记,内容主要包含数据表里的数据排序,学习文档来自易百教程:http://www.yiibai.com/mysql/ORDER结合FIELD()对列取值映射后排序select orderNumber,status from orders order by field(status,'In Process','On Hold','Cancelled','Resolve原创 2018-02-07 14:54:35 · 4749 阅读 · 0 评论 -
MySQL对数据表整体的操作***
本文是个人学习笔记,内容主要包含数据表的存储方式简介,数据的导入与导出,数据表的创建、重命名与删除,数据表的结构更改,数据表的关联。学习文档来自易百教程:http://www.yiibai.com/mysql/表的存储方式简介表与存储引擎MySQL为其表提供了各种存储引擎,每个存储引擎都有自己的优点和缺点,为表选择最合适的功能可以最大限度地提高数据库的性能。它们分别如下所示: ...原创 2018-02-07 19:19:54 · 395 阅读 · 0 评论 -
MySQL对数据库服务器及数据库整体的操作
本文是个人学习笔记,内容主要包含数据库的创建、数据库的删除,学习文档来自易百教程:http://www.yiibai.com/mysql/启动关闭数据库服务器 数据库整体操作MySQL的数据库是用于存储和操作诸如表,数据库视图,触发器,存储过程等数据的对象的集合。查看数据库show databases;创建数据库create database ...原创 2018-02-08 14:00:56 · 367 阅读 · 0 评论 -
Pandas库分析处理链家出租房(实验)
载入数据import pandas as pdlj_data = pd.read_csv('./LJdata.csv')lj_data.head(2) 规范一点,用英文的column name,这样免去了后续的一些问题(主要是编码问题)lj_data.columnsIndex(['区域', '地址', '标题', '户型', '面积', '价格', '楼层', '建造时间', '朝向', '更原创 2017-10-25 04:54:31 · 1461 阅读 · 0 评论 -
利用Hadoop平台的map-reduce进行词频统计
下述内容操作平台有三个: 个人PC,远端阿里云linux服务器,远端Hadoop集群(一)进入本地服务器实验文件目录(二)查看实验步骤说明文档(三)删除前一次操作同样实验的数据,避免实验干扰错误(四)上传数据集到hadoop集群(五)不要直接写完程序去hadoop集群上运行;先小规模数据,本地模拟程序debug map操作程序 reduce操作程序 (六)利用hadoop streami原创 2017-11-02 19:55:08 · 4378 阅读 · 0 评论 -
Python3pandas库transform用法
import pandas as pdimport numpy as npA=np.array([[1,2,3,4,5],[2,1,1,2,2],[1,2,3,4,5],[2,1,1,2,2],[1,2,3,4,5]])data=pd.DataFrame(A,index=['li','chen','wang','zhao','qian'],columns=['a','b','c','d','e原创 2017-10-21 00:42:58 · 19541 阅读 · 0 评论 -
Python3pandas库DataFrame用法(基础整理)
创建一个DataFrame(1)用字典dict,字典值value是列表list(2)用Series构建DataFrame(3)用一个字典构成的列表list of dicts来构建DataFrame广播特性定位DataFrame里的元素(1)利用表达式boolean定位(2)利用loc,iloc,ix函数定位可以定位数字,就可以赋值...原创 2017-10-18 18:06:44 · 18543 阅读 · 0 评论 -
Python3pandas库Series用法(基础整理)
构造/初始化Series的3种方法:(1)用列表list构建Seriesimport pandas as pdmy_list=[7,'Beijing','19大',3.1415,-10000,'Happy']s=pd.Series(my_list)print(type(s))print(s)<class 'pandas.core.series.Series'>0 71原创 2017-10-18 02:41:03 · 28699 阅读 · 1 评论 -
Hadoop学习之MapReduce计算框架
批处理模式是一种最早进行大规模数据处理的模式。批处理主要操作“大规模静态数据集”,并在整体数据处理完毕后返回结果。MapReduce 计算架构提供的主要功能(1)任务调度将一个计算作业(Job)划分成多个计算任务(Tasks)为划分的Tasks分配和调度计算结点(Map 结点或 Reduce 结点)监控计算结点的执行状态Map 结点执行的同步控制计算性能优化处理例如,对最慢的计算任...原创 2019-06-06 20:26:47 · 1054 阅读 · 1 评论