- 博客(8)
- 收藏
- 关注
原创 用Python脚本解决Linux上MapReduce输出结果中的中文乱码问题
问题介绍 Windows上跑出的结果中的中文显示没有问题,但是在Linux上由于编译环境问题却是中文乱码。 解决方案 利用Python脚本,快速完成编码转换。但是查找资料的过程比较艰辛,尝试了很多种办法都没能成功,最终用pydoop包对HDF上的MapReduce结果进行操作,解决问题。 import pydoop.hdfs as hdfs import chardet for in...
2018-06-05 16:36:31
811
原创 Python高级数据处理与可视化(六)---学科应用
学科应用学科应用 理工类应用 简单的三角函数计算 一组数据的傅立叶变换 Biopython 人文社科类应用 古腾堡项目 就职演说语料库理工类应用简单的三角函数计算#Filename: mathA.py import numpy as np import pylab as pl x = np.linspace(-np.pi,np.pi,256) #linspace->array s = np.s
2017-02-25 01:25:29
1242
原创 Python高级数据处理与可视化(五)---数据存取
数据存取CSV格式数据存取 CSV(Comma-Separated Values),CSV文件默认用EXCEL打开,它可以以纯文本形式存储表格数据,每条记录的数据之间,用逗号来分隔,一目了然。 df.to_csv('stockIBM.csv') #DataFrame.to_csv() 运用read_csv(),我们从文件中获取数据,比之前从内存中获取数据来的简单得多。 result = pd.r
2017-02-24 23:27:24
931
原创 Python高级数据处理与可视化(四)---- Pandas作图
Pandas作图Pandas官方手册Pandas作图 Pandas绘图 Pandas控制图像形式 Pandas控制图像属性Pandas绘图 Pandas通过整合Matplotlib的相关功能,可以实现基于Series和Dataframe的某些绘图功能。针对这两种类型的数据,Pandas作图常常比pylab和pyplot这两个模块更方便。(二)中Cocacola公司实例的作图更改 plt.plot
2017-02-24 22:55:57
6722
原创 Python高级数据处理与可视化(三)---- Matplotlib图像属性控制
Matplotlib图像属性控制Matplotlib图像属性控制 色彩和样式 文字 其他属性 子图 subplots axes色彩和样式 通过help(plt.plot)查看属性 plt.plot(listKOIndex,listKO,'b-') #蓝色实线 plt.plot(listKOIndex,listKO,'g--') #绿色虚线 plt.plot(listKOIndex,listKO
2017-02-24 00:23:14
1267
原创 Python高级数据处理与可视化(一)---- 聚类分析
聚类分析聚类分析 实例1 实例2 函数用法聚类分析(cluster analysis):以相似性为基础把相似的对象通过静态分类的方法分成不同的组别或更多的子集。特性:基于相似性,有多个聚类中心。 Kmeans算法:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。 实例1from numpy import vstack from
2017-02-23 16:27:10
11028
原创 Python高级数据处理与可视化(二)---Matplotlib绘图基础
Matplotlib绘图基础Matplotlib绘图基础 最著名Python绘图库主要用于二维绘图 心形图 折线散点柱状图 实例1 实例2 定义列表 代码块最著名Python绘图库,主要用于二维绘图 画图质量高 方便快捷的绘图模块 绘图API—–pyplot模块 工作方式类似Matlab 集成库—–pylab模块(包含NumPy和pyplot中的常用函数) 偏重快
2017-02-23 16:13:46
4392
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人