- 博客(7)
- 收藏
- 关注
原创 hive自动换行问题
常见的hive自动换行问题:数据字段里面包含建表时指定的行分隔符,还有其他异常情况。1、数据字段里面有换行,指定的行分隔符是‘|’,插入表的时候也会自动换行。
2022-12-08 16:17:02
1156
原创 python基础知识整理--环境部署
1、Python 改变和获取当前工作目录import osos.chdir("目标目录") #修改当前工作目录os.getcwd() #获取当前工作目录
2020-05-31 12:09:12
253
原创 聊聊机器学习之逻辑回归
一说到机器学习算法,相信很多人想到的第一个机器学习算法就是逻辑回归,那么什么是逻辑回归?怎么用逻辑回归这一算法呢?这篇文章就跟大家来聊聊这个话题。一、定义
2020-05-27 22:15:43
291
原创 聊聊大数据之特征工程
1 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面: 特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维等。首次接触到sklearn,通常会被其丰富且方便的算法模型库吸引,但是这里介绍的特征处理库也十分强大! 本文中使
2020-05-19 22:02:04
1537
原创 终于有一篇讲清楚了什么是Spark
@SparkSpark概述Spark是Apache软件基金会旗下的顶级开源项目之一。使用简练、优雅的Scala语言编写,借鉴了mapreduce“计算向数据靠拢”的大数据计算优点,同时解决了mapreduce表达能力有限(计算都必须转化成map和reduce两个操作)、磁盘I/O开销大、延迟高等问题。Spark计算模式也属于Mapreduce,但不局限于Map和reduce,还提供了多种数据集操作类型,编程模型比Mapreduce更灵活;提供了内存计算,中间结果直接存放入内存中,带来了更高的迭代执行机制
2020-05-14 22:26:22
309
转载 很全的SAS基础知识
5.1 SAS表达式简介 1.SAS常数表达式 (1)数值常数 如: 1.23、 -5、 0.5E-10。 (2)字符常数 如: name1='TOME'、 name2='MARY'、name3='JOHN'。 (3)日期(d)、时间(t)、日时(dt)常数 如: d1='01JAN80'd、t1='9:25:19't、 dt1='18JAN80:9:27:05'dt。 (4)16进制...
2018-03-25 21:45:25
3707
原创 EXCEL 数据分析基础知识
1、编码1 byte可以存256个字符,最初的存储方式ASCII,就存了英文+数字+符号汉字远远大于256种可能,与使用2byte组合表示,叫做GB2312,后来为了表示更多的汉字,用了GBK,它是拓展版,连繁体字都包括了,可是中国还有少数民族啊,少数民族的文字怎么办,于是有了GB18030,可是全世界有多少国家多少少数民族?,于是发明了万国码,叫做unicodeUTF-8是一种整合版编码,编码英...
2018-03-25 18:15:13
910
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人