
Python
专注Python
是女汉子不是女汉子
这个作者很懒,什么都没留下…
展开
-
pyspark系列--pyspark读写dataframe【看了觉得总结的很好,所以分享给大家,希望加大此文被搜索到的概率】
pyspark读写dataframe1. 连接spark 2. 创建dataframe 2.1. 从变量创建 2.2. 从变量创建 2.3. 读取json 2.4. 读取csv 2.5. 读取MySQL 2.6. 从pandas.dataframe创建 2.7. 从列式存储的parquet读取 2.8. 从hive读取 3. 保存数据 3.1. 写到cs...转载 2019-12-02 10:51:37 · 473 阅读 · 0 评论 -
配置spark的jupyter notebook kernel -- spark magic
1、下载livy https://livy.incubator.apache.org/解压,进入livy文件夹,然后运行bin/livy-server2、安装sparkmagicpip install sparkmagicjupyter nbextension enable --py --sys-prefix widgetsnbextension下边是可选部分:pip show ...转载 2019-11-26 10:50:06 · 770 阅读 · 0 评论 -
jupyter notebook搭建pyspark
python3.6不支持pyspark, 好在用的是Anaconda这种神器,可以随意切换python版本。因为我的Spark是1.6的,所以python2.7应该是可以的。首先conda create -n py27 python=2.7 anacondasourceactivatepy27 conda install python=2.7就将当前的python环境切换到...原创 2019-11-26 10:48:18 · 397 阅读 · 0 评论 -
【转】两种方法:将PySpark导入Python
原文链接:https://blog.youkuaiyun.com/sinat_26599509/article/details/51895999方法一使用findspark使用pip安装findspark:pip install findspark;在py文件中引入findspark:>>> import findspark;>>> findspark.ini...转载 2019-11-25 11:37:18 · 943 阅读 · 0 评论 -
【转】 五步完成pyspark:连接spark集群Windows环境搭建
原文链接:https://blog.youkuaiyun.com/qq_23860475/article/details/904761971.软件1、anaconda(python3.6)2、spark-2.4.3-bin-hadoop2.7(spark版本要和集群上的一样)3、JDK1.82.python环境配置pip install pyspark这里如果遇到安装超时的情况采用...原创 2019-11-25 10:00:22 · 2521 阅读 · 2 评论 -
pyspark dataframe列的合并与拆分
使用Spark SQL在对数据进行处理的过程中,可能会遇到对一列数据拆分为多列,或者把多列数据合并为一列。这里记录一下目前想到的对DataFrame列数据进行合并和拆分的几种方法。from pyspark.sql import SparkSessionspark = SparkSession.builder \ .master("local") \ .appName("datafr...转载 2019-12-18 09:37:10 · 1863 阅读 · 0 评论 -
jupyter集成多个开发语言
目前正在linux上搞jupyter开发环境,已经完成了扩展功能的安装,详情移步本人的Jupyter Notebook安装jupyter_contrib_nbextension扩展功能,两大步搞定,本次主要讲在jupyter中集成python3,pyspark,java,scala等开发语言。概述本质是增加jupyter对应的kernel,而jupyter 是通过kernels文件夹下的子...原创 2019-12-31 11:40:31 · 786 阅读 · 0 评论 -
Jupyter Notebook安装jupyter_contrib_nbextension扩展功能
步骤Step 1 :安装 jupyter_contrib_nbextensions 及其依赖包Step 2:安装 javascript and css filesjupyter contrib nbextension install [--user]QAQ:Python3在 linux 上安装扩展功能时 from tornado import stack_context ...原创 2019-12-31 09:45:48 · 568 阅读 · 0 评论 -
开发工具 | 你真的会用jupyter吗?
前言提起jupyter notebook,应该很多学习过Python的同学都不陌生。虽然用jupyter notebook的同学相对较少,但是提及这款开发工具,很多人都会赞不绝口,“jupyter很强大,交互式、富文本”,很多人都知道jupyter notebook的这几个优点,但是,试问一下,你真的会用jupyter吗?以Python开发为例,我们只需要在windows命令行或者li...转载 2019-12-30 11:00:37 · 512 阅读 · 0 评论 -
jupyter 集成python2,python3,pysaprk等开发环境
有两种情况一是有外网权限,直接①下载anaconda4.1.0(包含)以上版本,②创建虚拟环境,③虚拟环境中安装开发工具包二是没有外网权限,手动配置①增加对应工具的jupyter kernel;②添加环境变量,以pyspark为例:参考链接:https://blog.youkuaiyun.com/moledyzhang/article/details/78850820http...原创 2019-11-14 20:27:31 · 167 阅读 · 0 评论 -
pyspark异常经验总结
Q:NameError: name 'self' is not defined最近开发Python包,遇到一个“NameError: name ‘self’ is not defined”问题。在执行class Tasdfa: def __init__(self,prompt='asdfa',newline=False): self.newline=newl...转载 2019-12-17 10:49:48 · 1997 阅读 · 0 评论 -
sklearn 中tsne可视化之道
原理可以理解成“降维可视化”,具体操作参考如下链接https://www.deeplearn.me/2137.htmlhttps://blog.youkuaiyun.com/qq_27584277/article/details/80066657原创 2019-11-14 20:41:37 · 1355 阅读 · 0 评论 -
python训练tensorflow模型,java调用
1.tensorflow serving ,官网有介绍,如下:https://www.tensorflow.org/serving/一个简单易懂的例子如下:https://www.jianshu.com/p/2fffd0e332bc更详细的安装流程:https://zhuanlan.zhihu.com/p/42905085从数据流向来分析:https://zhuanla...原创 2018-11-13 13:24:50 · 2063 阅读 · 0 评论 -
python import 上级目录
格式如下:import syssys.path.append("..")from src.DeepFM import *目录级别如下:原创 2018-11-07 10:26:34 · 1614 阅读 · 0 评论 -
python 数据相关性可视化
话不多说直接上代码import matplotlib.pyplot as pltimport seaborn as snsdata = test_feature.corr() #test_feature => pandas.DataFrame#sns.heatmap(data)plt.show(转载 2018-11-07 09:56:00 · 2227 阅读 · 0 评论