
python
文章平均质量分 82
百物易用是苏生
企鹅小兵,搞搞大数据
展开
-
pandas操作excel,matplotlib.pyplot画图插入到excel,处理复杂excel简单练习
在数据分析上,一直都在公司zeppelin上敲python/scala代码,进行数据分析,公司内搞了个小考试,操作excel,弄matplotlib画图之类的;好久没弄过这些了,在小技术上感觉被打脸,复习一下,后面再考这了有个记录模板,免得到处翻代码调试了。#公司有三道题:第一道随机填充dataframe,并写入excel第二道读取excel,画图,图插入excel的第二个sheet,并保存excel;画图参考 https://zhuanlan.zhihu.com/p/139052035第三道 读原创 2021-01-23 21:16:38 · 7863 阅读 · 5 评论 -
python matplotlib排序画图初探之简单bar实时动态更新(非animation、非opencv)
最近回顾学习排序,想用python实现,考虑可视化github上有一个python得https://github.com/ZQPei/Sorting_Visualization还不错。不过有用到opencv、pygame,我不太想用这个,看是否能直接用matplotlib画,有两种思路:①animation动画思路、②自己手动draw。这一篇是自己探索的第②种,自己手动draw得方式...原创 2019-07-21 15:36:20 · 2272 阅读 · 0 评论 -
spyder 3.1.4之后就移除了python console,只剩ipython了,很难受
spyder 3.1.4之后就移除了python console,只剩ipython了,很难受。最近想可视化排序的数据过程,不想借助过多第三方如pygame、opencv-python包,但是pyplot得实时动态更新真特么是个大问题。ipython何python又不一样,anaconda得jupyter时ipython,spyder得也只剩ipython,很难受。看到stackove...原创 2019-07-20 22:46:48 · 1606 阅读 · 0 评论 -
转载 matplotlib教程——matplotlib的软件架构(matplotlib、figure、pyplot关系简单易懂)
原博文:https://blog.youkuaiyun.com/qq_27825451/article/details/81481534https://www.jianshu.com/p/3937798d645bmatplotlib是一个大的集合框架粗略分三层:底层fiugre/renderer绘图、美工Artis层、脚本pytplot一:底层FigureCanvas对绘图表面...转载 2019-07-20 19:55:41 · 695 阅读 · 0 评论 -
python pandas.dataframe操作出现 Could not compare [None] with block values 异常
原因是 判定dataframe是否为空时用错了方式;将 if df !=None 换成 if df is not None 即可(怪怪的不知道为什么,还有pandas.read_csv 命名指定dtype=str, 对于空的值,用的nan而且当做float,而且并不等于None,所以对这种值也要注意处理df.dropna(""), 否则也会在 df[df[col]=='val'] 引...原创 2019-07-15 17:00:33 · 2401 阅读 · 0 评论 -
networkx的draw_networkx_xxx画恶意账号手机、证件信息、硬件设备mac、设备id、ip的网络关系图
一:背景pyspark跑了一批疑似恶意名单的记录,需要将多纬度的关系在一张图中表现,而excel生成的记录文档都只能看到单条记录,看不出关联关系所以弱渣开始看生产库上是否有画图工具,可惜没有,但是可连接的电脑上有anaconda,刚好有1.1版本的networkx画图工具周末回家鼓捣networkx,自造数据二:数据自造准备test1.csv request.requestB...原创 2019-07-14 17:24:03 · 1092 阅读 · 0 评论 -
pyspark出现 sc._jvm.fuctin.xxx(_to_java_column(col),options) NoneType object has no attriue '_jvm'异常解决
通常 ‘NoneType’ object has no attriue ‘_jvm’ 让人摸不着头脑,但是该异常信息上面一般会打印一些信息,其中:会有jc = sc._jvm.fuctin.xxx(_to_java_column(col),options)的样子xxx是不定的原因是map或其他元算算子中调用的某个方法有问题,不适用像我的程序中出的问题是因为from pyspark.s...原创 2019-07-02 12:51:15 · 1871 阅读 · 1 评论 -
pyspark rdd的combineByKey的高级API使用方法,多行按某列合为一行
combineByKey是比较底层的高级用法,如dataframe或rdd的groupby,rdd的reduce、reduceByKey等都依赖与它。combineByKey入参是三个function函数,分别针对单个的(k,v)转为(k,c)新的一行对象,(k,c)与(k,v)的合并,(k,c)与(k,c)的合并,最终整体转化为(k,c)这样的新键值对集合最简单的示例:https://sp...原创 2019-07-02 11:09:01 · 804 阅读 · 0 评论 -
pyspark rdd中按其中一列分割拆分后转为多行
dataframe也有按某列中按分隔符转成多行的函数,不过dataframe比rdd所需资源更多,所以此处先些rdd的按某列拆分转为多行dataframe的详见https://spark.apache.org/docs/2.3.1/api/python/pyspark.sql.html#pyspark.sql.DataFrame 的pyspark.sql.functions.explode(co...原创 2019-07-02 12:37:33 · 5356 阅读 · 0 评论 -
window下jupyter(anaconda)中使用findspark配置spark
上一篇讲完zeppelin配置spark,zeppelin启动太慢了,经常网页上interpreter改着就卡死,需要后面zeppelin.cmd窗后点击才有反应,而且启动贼慢。因为本来就安装了Anaconda2,索性给jupyter也配置上spark;查阅资料有两类: 方法一:给jupyter 安装上jupyter-scala kernerl 和jupyter-spark ...原创 2019-07-07 19:24:47 · 7171 阅读 · 0 评论 -
window中的zeppelin配置pyspark
前提:java8、scala、spark、python、zeppelin都安装好了(本地单机spark可以不用hadoop的),可参考我之前的各个安装文档一:zeppelin的pyton interpret中配置信息如果path中没有配置python的环境变量,即cmd随便一个目录输入python 无法出现python版本信息和交互命令行,说明未配置,需要设置zeppelin.python...原创 2019-07-07 18:31:51 · 2209 阅读 · 0 评论 -
pyspark出现异常 ValueError: too many values to unpack
ValueError: too many values to unpack这是python的错误,例如赋值时:a,b=(1,2,3) #就会出现ValueError: too many values to unpack而我的spark代码中是使用reduceByKey之前的map(lambda x:(x[0]+"|"+x[1]))中漏掉了第二列赋值1,所以传参不对,造成该错误...原创 2019-07-01 15:21:04 · 1579 阅读 · 0 评论 -
【pyspark】二 给dataframe添加列并自动编号 注意事项
pyspark的自动编号:pyspark.sql.functions.monotonically_increasing_idfrom pyspark.sql.functions import monotonically_increasing_idtempdf_index=tempdf.withColumn(“id”,monotonically_increasing_id())tempdf_i...原创 2019-04-10 19:00:17 · 4730 阅读 · 0 评论 -
【pyspark】一 spark dataframe 读写parquet、json、csv等文件
pyspark 读写文件环境:zeppelin中的spark 2.1 的notebook提交的代码pyspark 读 jsondataframe = spark.read.format(“json”).load("/tmp/testhdfsfile") #路径是hdfs上的注意json文件中,一条记录是一条json,不能换行,格式如下:{“row”:“1”,“field1”:“valu...原创 2019-04-10 18:44:19 · 6898 阅读 · 6 评论