
python数据分析
crystalnsd
坚持不懈,厚积薄发
展开
-
利用python对数据分流
业务需求:hive表中包含了顺丰的所有的运单流向(北京到深圳为一个流向,全国大约十万个流向),现将数据分流,将每一个流向写入一个文件中 report_dt 报表时间 src_area_code 始发地区代码 src_dept_name 始发地区名称原创 2017-05-31 14:16:13 · 1748 阅读 · 1 评论 -
利用python进行数据分析第二章第二个例子
# -*- coding: utf-8 -*-"""Created on Thu May 4 17:32:45 2017利用python进行数据分析第二章第二个例子数据下载:http://download.youkuaiyun.com/download/zdxxinlang/9671783@author: 80002419"""import pandas as pdimpor原创 2017-06-05 16:10:00 · 1649 阅读 · 0 评论 -
pyspark aggregate函数使用问题(aggregate重写,aggregate中的函数参数限制)
代码 :from pyspark import SparkContext, SparkConffrom functools import reduceconf = SparkConf().setAppName('myFirstAPP').setMaster('local') #连接sparksc = SparkContext(conf = conf) ##生成SparkCont原创 2017-11-07 14:32:53 · 1283 阅读 · 1 评论 -
pyspark RDD 自定义排序(python)
问题:现有数据 data = ((‘crystal’,90,22),(‘crystal1’,100,28),(‘crystal3’,100,22)) 现在对data 进行排序 排序规则: 1 按元组中的第二个字段排序 2 第二个字段相等的话,按第三个字段排序实现思路:定义一个列表元素类,每一个元素都可以实例化成这个类的对象定义类的比较规则,比较规则即为需求规则,然后将R原创 2017-11-09 01:01:24 · 6552 阅读 · 1 评论