zmqsdu9001-优快云博客

原创 Python CheatSheet-NumPy Array、Pandas DataFrame、List之间的相互转换

1. 多个一维list，长度一样，每个代表一列，如何拼接成一个NumPy Array，然后转换成Pandas DataFrame？import numpy as npimport Pandas as pd# 比如下面这样三列数据：col1 = [1,2,3,4,5]col2 = ['a', 'b','c','d','e']col3 = [99,105, 50, 80, 100]c...

2019-09-18 00:41:45 400

原创 Pandas DataFrame CheatSheet

1. Pandas DataFrame 寻找若干列的所有unique combination# For example, if df is a Pandas DataFrame of data of muitiple # item_third_cate_cds and item_fourth_cate_cds# Step 1. use drop_duplicate() to remov...

2019-08-20 15:34:22 370

转载 Python CheatSheet-二维列表按照指定列排序

两种方法，一种是用lambda，另一种是用operator 模块的itemgetter函数。可以参考的链接：链接1，两种方法都有讲述：https://blog.youkuaiyun.com/u013378642/article/details/81775131链接2，讲述了itemgetter函数使用：https://stackoverflow.com/questions/250463...

2019-06-26 17:17:45 302

原创 Hadoop/HDFS CheatSheet-文件文件夹统计相关

# 1. 显示当前目录下的文件hadoop fs -ls hdfs_pathhdfs dfs -ls hdfs_path# 2. 显示当前目录下所有文件的大小，以human readable形式显示（K，M，G）hadoop fs -du -h hdfs_pathhdfs dfs -du -h hdfs_path# 3. 显示当前文件夹的文件夹、文件数量（返回文件夹数量，文件数量...

2019-04-29 11:10:15 263

原创 Python CheatSheet-文件、文件夹控制相关

import osimport shutil# 1. 获取当前目录cwd = os.getcwd()# 2. 判断文件夹是否存在，如果不存在，建立指定文件夹# os.makedirs()命令可以递归建立，所以如果父文件夹不存在，可以直接用此命令test_folder = 'xxx'if not os.path.exists(test_folder): os.makedir...

2019-04-28 16:26:01 190

原创 Linux CheatSheet-文件夹排序相关

# 以合适的单位显示当前目录下所有文件夹大小以及当前目录大小，du -h# 以合适的单位显示当前目录下所有文件夹大小以及当前目录大小，并按照升序排序du -h | sort -h # 查看每个子文件夹下的特定文件大小，并按大小排序du -h */gdm_m04_ord_det_sum | sort -hdu -h */gdm_m04_ord_det_sum | sort -rh...

2019-04-24 14:56:18 151

原创 Python CheatSheet-Python2的unicode和string的转换

unicode转string是encode，string转unicode是decode用utf-8和utf8是一样的不信你把上面的代码放进python2里面试试。import sysreload(sys)sys.setdefaultencoding('utf8')x = u'中国'y = x.encode('utf-8')z = y.decode('utf-8')a ...

2019-04-21 20:49:38 204

原创 PySpark CheatSheet-Spark DataFrame等Spark类型数据结构转其他数据结构

1. Spark DataFrame转numpy array：先转换成pandas DataFrame，然后再转换成numpy arrayimport pandas as pdimport numpy as npdf=spark.createDataFrame([(101,1,16), (102,2,13),(103,5,19), (104,4,22)], ['ID','A','B'...

2019-04-21 11:19:32 540

原创 Python CheatSheet-日期、时间控制与datetime模块使用

本文根据Python2的官方文档展开，链接在此。1. datetime模块介绍：有下面几种类：datetime.date就是存的公历日期，有三个属性，year，month，daydatetime.time存的是时间，属性有hour, minute, second, microsecond, and tzinfo。没有年月日datetime.datetime存的是日期...

2019-04-20 15:11:51 294

原创 PySpark CheatSheet-其他操作

1. PySpark DataFrame 按照条件过滤使用where()或者filter()，不同条件先用括号括起来，然后连接的and用"&"， or用"|"， not用"~"。也可以把条件写在一个String里头，里面就用and、or，而且字段名称不用带引号。比如：df=spark.createDataFrame([(101, 1, 16), (102, 2, 13)], ['...

2019-04-20 13:33:21 413

原创 PySpark CheatSheet-UDF相关

1. PySpark的各种输入输出UDF：下面展示了多个例子，包含：0.UDF单列输入，单列输出的简化版，只用一行代码（lambda函数）；1. UDF单列输入，单列输出；2. UDF多列输入，单列输出；3. UDF单列输入，多列输出；4. UDF多列输入，多列输出；5. UDF单列输入并添加外置参数，单列输出。6. UDF多列输入并添加外置参数，单列输出。只...

2019-04-20 13:30:14 291

原创 yarn 根据关键词批量杀死任务

例如：for i in `yarn application -list | grep -w zhumengqi | awk '{print $1}' | grep application_`; do yarn application -kill $i; done更换关键词，把zhumengqi换成自己的其他关键词即可...

2019-04-12 12:23:54 1780 2

原创 Spark的application, job, stage, task的关系

Application：一个application对应着启动一个Spark Context，也可以认为对应着一个Spark submit。Job：每一个job都会对应一个action。Stage：每个Stage对应一个wide transformation。Task：最小单元。对应一个local computation。个人觉得下面Stack Overflow这个理...

2019-03-10 17:22:37 432

原创 Hive CheatSheet

1. Hive导出到.csv文件由于Hive中导出的文件不是以逗号，而是以Tab（或者说'\t'）为分隔符的，因此，下面的命令自己试过可以转换为逗号分隔的文件，也就是真正的csv文件。当然，有时候可能还需要跟转码的工具进行组合，转换编码格式。sed -i 's/\t/,/g'xxx.csv当然，第一步是hive -e "SQL语句" > xxx.csv所以完整...

2019-02-25 21:38:55 476

原创 PySpark CheatSheet-建立Spark DataFrame

1. 从list of set建立一个DataFrame：df = sc.parallelize([(1, 2.0), (2, 3.0)]).toDF(["x", "y"])df2=spark.createDataFrame([(101, 1, 16), (102, 2, 13)], ['ID', 'A', 'B'])生成的Spark DataFrame：df.show()+-...

2019-02-23 18:17:54 341

转载 shell脚本中的空格【转载】

1.定义变量时, =号的两边不可以留空格.eg:gender=femal————rightgender =femal———–wronggender= femal———–wronggender= test————right 左边是命令的话=号的右边有空格是正确的=左边不能有空格gender = test ———wrong 等号=左边必须要有空格2.条件测试语句 [ 符号的两边都要...

2018-12-13 15:39:35 707 1

转载 “什么是Word Embedding（词嵌入）”的个人理解

首先粘贴一下Wiki英文的定义：Word embedding is the collective name for a set of language modeling and feature learning techniques in natural language processing (NLP) where words or phrases from the vocabulary a...

2018-10-15 12:46:30 2475

转载 hadoop fs, hadoop dfs, hdfs dfs命令的区别与联系

参考链接：https://stackoverflow.com/questions/18142960/whats-the-difference-between-hadoop-fs-shell-commands-and-hdfs-dfs-shell-co先来一张图1. hadoop fs命令可以用于HDFS、Local FS等不同的文件系统。而hdfs dfs命令只用于HDFS文件系统...

2018-09-30 18:24:38 2377

转载 Spark性能优化：资源调优篇

转载自：https://blog.youkuaiyun.com/u012102306/article/details/51637366 &nbsp; &nbsp; &nbsp; 在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些...

2018-09-30 14:49:14 173

转载 Latent Semantic Analysis (LSA) 模型学习笔记

Latent Semantic Analysis (LSA) 模型学习笔记        Latent Semantic Analysis 模型，隐性语义分析，也就是我们常说的LSA模型。后面还有他的兄弟PLSA和LDA模型，这个我们后面再说。这几个都是NLP中比较经典的模型！学习这个...

2018-09-29 16:10:25 576

转载 Doc2Vec句向量模型PV-DM与PV-DBOW的理解

1. PV-DM在我们的句（Paragraph）向量模型中，每一个句子都被映射成一个独立的向量，这个句向量作为矩阵的一列；同时，每一个词也被映射成一个独立的向量，这个词向量作为矩阵的一列。对这个句向量和这些词向量求平均或者首尾相连，用来预测文本中的下一个词。在本研究的试验中，我们选用首尾相连来组合这些矩阵。严格的说，与公式1（Word2vec的公式）相比，唯一的不同点在于这里从和两个...

2018-09-26 12:01:02 6990

转载 FM（Factorization Machine，因子分解机）算法个人理解

1. FM是什么因子分解机(Factorization Machine, FM)是由Steffen Rendle提出的一种基于矩阵分解的机器学习算法。1.1 背景常见的线性模型，比如线性回归、逻辑回归等，它只考虑了每个特征对结果的单独影响，而没有考虑特征间的组合对结果的影响。而在某些情况下，若干的特征经过组合或者关联之后对于结果的影响比较大。所以。。。一般的线性模型：当考...

2018-09-25 16:19:44 2220

转载三大相关系数：Pearson、Spearman和Kendall

三个相关性系数（Pearson、Spearman和Kendall）反映的都是两个变量之间变化趋势的方向以及程度，其值范围为-1到+1，0表示两个变量不相关，正值表示正相关，负值表示负相关，值越大表示相关性越强。1. Pearson（皮尔森相关性系数）公式如下：就是X，Y两个变量的协方差与两个变量的标准差之积的比值。所以X，Y两个变量的标准差不能为零。皮尔森相关系数受异常值的...

2018-09-25 16:19:19 20808

zmqsdu9001的博客