- 博客(6)
- 收藏
- 关注
原创 python itertools groupby函数
作用:以key分桶(一般来说应用于hadoop后的reduce阶段),lines包含顺序向下key的所有行groupby函数的两个参数:the data to group—数据the function to group it with.,操作数据的函数—key测试脚本:from itertools import groupbythings = [("animal", "bear"...
2019-12-13 16:29:22
736
原创 Hadoop-Hive中sql语句的explode命令
explode功能:将单列的array或者map内容转化为多行实例:tanle内容:SELECT explode(myCol) AS myNewCol FROM myTable;结果:注意事项
2019-11-22 11:49:12
818
原创 python字符串编码问题
参考Python字符串的编码与解码(encode与decode)字符串在Python内部的表示是unicode编码decode解码实际上是把其他编码转成unicodestr1.decode(‘gb2312’),表示将gb2312编码的字符串转换成unicode编码encode编码实际上是吧unicode转成其他编码如str2.encode(‘gb2312’),表示将unic...
2019-11-05 21:10:16
166
原创 linux下如何创建定时任务--crontab命令
快速上手No bb,show me the code:crontab -e #进去直接编辑文档,退出之后就生效#执行实例:修改其中内容即可 01 01 * * * sh /home/work/shellfile.shcrontab -l #查看任务细节注:脚本使用前可能需要chmod +x 添加执行权限详解时间格式基本格式 :* * * * * command...
2019-11-02 10:16:53
376
原创 linux及hadoop HDFS下如何统计文件及目录内文件行数?-wc命令
NO bb ,show me the code:linux下文件行数wc -l filename #文件行数wc -l dirname/* #文件夹内容所有文件行数hadoop HDFS文件及目录内文件行数:–管道hadoop fs -cat filename | wc -lhadoop fs -cat 'filename/*' | wc -l #文件夹内所有文件行数之和注...
2019-11-02 10:04:39
7222
翻译 从单词到向量-自然语言处理NLP
-译文,原文链接:Word to Vectors — Natural Language Processing为什么NLP比较难?计算机以清晰、准确并且通常是结构化的程序语言与人类交互。然而,人类的语言通常不是那么清晰。有同义词、反义词、反义词还有一些单词在用做名词和动词会表现出不同的含义。这些字词在自然语言中具有上下文相关的意义,人类可以理解和区分它们,而机器则不能。这就是使NLP成为AI中最...
2019-11-01 20:29:35
1122
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅