自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 python itertools groupby函数

作用:以key分桶(一般来说应用于hadoop后的reduce阶段),lines包含顺序向下key的所有行groupby函数的两个参数:the data to group—数据the function to group it with.,操作数据的函数—key测试脚本:from itertools import groupbythings = [("animal", "bear"...

2019-12-13 16:29:22 736

原创 Hadoop-Hive中sql语句的explode命令

explode功能:将单列的array或者map内容转化为多行实例:tanle内容:SELECT explode(myCol) AS myNewCol FROM myTable;结果:注意事项

2019-11-22 11:49:12 818

原创 python字符串编码问题

参考Python字符串的编码与解码(encode与decode)字符串在Python内部的表示是unicode编码decode解码实际上是把其他编码转成unicodestr1.decode(‘gb2312’),表示将gb2312编码的字符串转换成unicode编码encode编码实际上是吧unicode转成其他编码如str2.encode(‘gb2312’),表示将unic...

2019-11-05 21:10:16 166

原创 linux下如何创建定时任务--crontab命令

快速上手No bb,show me the code:crontab -e #进去直接编辑文档,退出之后就生效#执行实例:修改其中内容即可 01 01 * * * sh /home/work/shellfile.shcrontab -l #查看任务细节注:脚本使用前可能需要chmod +x 添加执行权限详解时间格式基本格式 :*  *  *  *  *  command...

2019-11-02 10:16:53 376

原创 linux及hadoop HDFS下如何统计文件及目录内文件行数?-wc命令

NO bb ,show me the code:linux下文件行数wc -l filename #文件行数wc -l dirname/* #文件夹内容所有文件行数hadoop HDFS文件及目录内文件行数:–管道hadoop fs -cat filename | wc -lhadoop fs -cat 'filename/*' | wc -l #文件夹内所有文件行数之和注...

2019-11-02 10:04:39 7222

翻译 从单词到向量-自然语言处理NLP

-译文,原文链接:Word to Vectors — Natural Language Processing为什么NLP比较难?计算机以清晰、准确并且通常是结构化的程序语言与人类交互。然而,人类的语言通常不是那么清晰。有同义词、反义词、反义词还有一些单词在用做名词和动词会表现出不同的含义。这些字词在自然语言中具有上下文相关的意义,人类可以理解和区分它们,而机器则不能。这就是使NLP成为AI中最...

2019-11-01 20:29:35 1122

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除