自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 Python CheatSheet-NumPy Array、Pandas DataFrame、List之间的相互转换

1. 多个一维list,长度一样,每个代表一列,如何拼接成一个NumPy Array,然后转换成Pandas DataFrame?import numpy as npimport Pandas as pd# 比如下面这样三列数据:col1 = [1,2,3,4,5]col2 = ['a', 'b','c','d','e']col3 = [99,105, 50, 80, 100]c...

2019-09-18 00:41:45 400

原创 Pandas DataFrame CheatSheet

1. Pandas DataFrame 寻找若干列的所有unique combination# For example, if df is a Pandas DataFrame of data of muitiple # item_third_cate_cds and item_fourth_cate_cds# Step 1. use drop_duplicate() to remov...

2019-08-20 15:34:22 370

转载 Python CheatSheet-二维列表按照指定列排序

两种方法,一种是用lambda,另一种是用operator 模块的itemgetter函数。可以参考的链接:链接1,两种方法都有讲述:https://blog.youkuaiyun.com/u013378642/article/details/81775131链接2,讲述了itemgetter函数使用:https://stackoverflow.com/questions/250463...

2019-06-26 17:17:45 302

原创 Hadoop/HDFS CheatSheet-文件文件夹统计相关

# 1. 显示当前目录下的文件hadoop fs -ls hdfs_pathhdfs dfs -ls hdfs_path# 2. 显示当前目录下所有文件的大小,以human readable形式显示(K,M,G)hadoop fs -du -h hdfs_pathhdfs dfs -du -h hdfs_path# 3. 显示当前文件夹的文件夹、文件数量(返回文件夹数量,文件数量...

2019-04-29 11:10:15 263

原创 Python CheatSheet-文件、文件夹控制相关

import osimport shutil# 1. 获取当前目录cwd = os.getcwd()# 2. 判断文件夹是否存在,如果不存在,建立指定文件夹# os.makedirs()命令可以递归建立,所以如果父文件夹不存在,可以直接用此命令test_folder = 'xxx'if not os.path.exists(test_folder): os.makedir...

2019-04-28 16:26:01 190

原创 Linux CheatSheet-文件夹排序相关

# 以合适的单位显示当前目录下所有文件夹大小以及当前目录大小,du -h# 以合适的单位显示当前目录下所有文件夹大小以及当前目录大小,并按照升序排序du -h | sort -h # 查看每个子文件夹下的特定文件大小,并按大小排序du -h */gdm_m04_ord_det_sum | sort -hdu -h */gdm_m04_ord_det_sum | sort -rh...

2019-04-24 14:56:18 151

原创 Python CheatSheet-Python2的unicode和string的转换

unicode转string是encode,string转unicode是decode用utf-8和utf8是一样的不信你把上面的代码放进python2里面试试。import sysreload(sys)sys.setdefaultencoding('utf8')x = u'中国'y = x.encode('utf-8')z = y.decode('utf-8')a ...

2019-04-21 20:49:38 204

原创 PySpark CheatSheet-Spark DataFrame等Spark类型数据结构转其他数据结构

1. Spark DataFrame转numpy array:先转换成pandas DataFrame,然后再转换成numpy arrayimport pandas as pdimport numpy as npdf=spark.createDataFrame([(101,1,16), (102,2,13),(103,5,19), (104,4,22)], ['ID','A','B'...

2019-04-21 11:19:32 540

原创 Python CheatSheet-日期、时间控制与datetime模块使用

本文根据Python2的官方文档展开,链接在此。1. datetime模块介绍:有下面几种类:datetime.date就是存的公历日期,有三个属性,year,month,daydatetime.time存的是时间,属性有hour, minute, second, microsecond, and tzinfo。没有年月日datetime.datetime存的是日期...

2019-04-20 15:11:51 294

原创 PySpark CheatSheet-其他操作

1. PySpark DataFrame 按照条件过滤使用where()或者filter(),不同条件先用括号括起来,然后连接的and用"&", or用"|", not用"~"。也可以把条件写在一个String里头,里面就用and、or,而且字段名称不用带引号。比如:df=spark.createDataFrame([(101, 1, 16), (102, 2, 13)], ['...

2019-04-20 13:33:21 413

原创 PySpark CheatSheet-UDF相关

1. PySpark的各种输入输出UDF:下面展示了多个例子,包含:0.UDF单列输入,单列输出的简化版,只用一行代码(lambda函数);1. UDF单列输入,单列输出;2. UDF多列输入,单列输出;3. UDF单列输入,多列输出;4. UDF多列输入,多列输出;5. UDF单列输入并添加外置参数,单列输出。6. UDF多列输入并添加外置参数,单列输出。只...

2019-04-20 13:30:14 291

原创 yarn 根据关键词批量杀死任务

例如:for i in `yarn application -list | grep -w zhumengqi | awk '{print $1}' | grep application_`; do yarn application -kill $i; done更换关键词,把zhumengqi换成自己的其他关键词即可...

2019-04-12 12:23:54 1780 2

原创 Spark的application, job, stage, task的关系

Application:一个application对应着启动一个Spark Context,也可以认为对应着一个Spark submit。Job:每一个job都会对应一个action。Stage:每个Stage对应一个wide transformation。Task:最小单元。对应一个local computation。个人觉得下面Stack Overflow这个理...

2019-03-10 17:22:37 432

原创 Hive CheatSheet

1. Hive导出到.csv文件由于Hive中导出的文件不是以逗号,而是以Tab(或者说'\t')为分隔符的,因此,下面的命令自己试过可以转换为逗号分隔的文件,也就是真正的csv文件。当然,有时候可能还需要跟转码的工具进行组合,转换编码格式。sed -i 's/\t/,/g'xxx.csv当然,第一步是hive -e "SQL语句" > xxx.csv所以完整...

2019-02-25 21:38:55 476

原创 PySpark CheatSheet-建立Spark DataFrame

1. 从list of set建立一个DataFrame:df = sc.parallelize([(1, 2.0), (2, 3.0)]).toDF(["x", "y"])df2=spark.createDataFrame([(101, 1, 16), (102, 2, 13)], ['ID', 'A', 'B'])生成的Spark DataFrame:df.show()+-...

2019-02-23 18:17:54 341

转载 shell脚本中的空格【转载】

1.定义变量时, =号的两边不可以留空格.eg:gender=femal————rightgender =femal———–wronggender= femal———–wronggender= test————right 左边是命令的话=号的右边有空格是正确的=左边不能有空格gender = test ———wrong 等号=左边必须要有空格2.条件测试语句 [ 符号的两边都要...

2018-12-13 15:39:35 707 1

转载 “什么是Word Embedding(词嵌入)”的个人理解

首先粘贴一下Wiki英文的定义:Word embedding is the collective name for a set of language modeling and feature learning techniques in natural language processing (NLP) where words or phrases from the vocabulary a...

2018-10-15 12:46:30 2475

转载 hadoop fs, hadoop dfs, hdfs dfs命令的区别与联系

参考链接:https://stackoverflow.com/questions/18142960/whats-the-difference-between-hadoop-fs-shell-commands-and-hdfs-dfs-shell-co先来一张图1. hadoop fs命令可以用于HDFS、Local FS等不同的文件系统。而hdfs dfs命令只用于HDFS文件系统...

2018-09-30 18:24:38 2377

转载 Spark性能优化:资源调优篇

转载自:https://blog.youkuaiyun.com/u012102306/article/details/51637366       在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些...

2018-09-30 14:49:14 173

转载 Latent Semantic Analysis (LSA) 模型 学习笔记

Latent Semantic Analysis (LSA) 模型 学习笔记        Latent Semantic Analysis 模型,隐性语义分析,也就是我们常说的LSA模型。后面还有他的兄弟PLSA和LDA模型,这个我们后面再说。这几个都是NLP中比较经典的模型!学习这个...

2018-09-29 16:10:25 576

转载 Doc2Vec句向量模型PV-DM与PV-DBOW的理解

1. PV-DM在我们的句(Paragraph)向量模型中,每一个句子都被映射成一个独立的向量,这个句向量作为矩阵 的一列;同时,每一个词也被映射成一个独立的向量,这个词向量作为矩阵 的一列。对这个句向量和这些词向量求平均或者首尾相连,用来预测文本中的下一个词。在本研究的试验中,我们选用首尾相连来组合这些矩阵。严格的说,与公式1(Word2vec的公式)相比,唯一的不同点在于这里从 和 两个...

2018-09-26 12:01:02 6990

转载 FM(Factorization Machine,因子分解机)算法个人理解

1. FM是什么因子分解机(Factorization Machine, FM)是由Steffen Rendle提出的一种基于矩阵分解的机器学习算法。1.1 背景常见的线性模型,比如线性回归、逻辑回归等,它只考虑了每个特征对结果的单独影响,而没有考虑特征间的组合对结果的影响。 而在某些情况下,若干的特征经过组合或者关联之后对于结果的影响比较大。所以。。。一般的线性模型:当考...

2018-09-25 16:19:44 2220

转载 三大相关系数:Pearson、Spearman和Kendall

三个相关性系数(Pearson、Spearman和Kendall)反映的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。1. Pearson(皮尔森相关性系数)公式如下:就是X,Y两个变量的协方差与两个变量的标准差之积的比值。所以X,Y两个变量的标准差不能为零。皮尔森相关系数受异常值的...

2018-09-25 16:19:19 20808

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除