jslijb-优快云博客

原创 scala 2.11.8 ArrayBuffer自带函数

分享有道云笔记文档：ArrayBuffer.md链接：http://note.youdao.com/noteshare?id=d37069cfe71739f6922a5bbb65ee44fd&sub=82F89E4678814F1293AC7507DD34BCFD

2019-05-09 22:34:13 246

原创 spark MLlib 之构建机器学习系统

构建 spark 机器学习系统spark 机器学习系统架构spark 和 hadoop 集群的安装spark-shell加载数据探索数据数据统计信息数据质量分析数据特征分析数据可视化数据预处理数据清理数据变换数据集成数据归约构建模型模型评估方法组装模型选择或调优交叉验证(CrossValidator)：训练验证切分 (TrainValidatio...

2018-06-22 17:19:26 17374

原创 spark mllib 之了解机器学习

了解机器学习

2018-05-24 10:50:10 710

原创 spark 2.2.1 job Scheduling

翻译官网的，翻译水平有限，大致的说明白了spark 2.2.1 job Schedulingspark 2.2.1 job Scheduling 官方文档

2018-05-23 15:31:10 239

原创在Windows10 上超详细搭建spark 开发环境

http://note.youdao.com/noteshare?id=3287f13ad5168e6d641fa260518dbeed&sub=1F84992EF3584CF9A821D49FCDFCFD8B这个是我的有道云比较分享出来的主要内容简介scala 安装java 8 安装hadoop 安装spark 安装idea 中使用java和scala 进行 spa...

2018-04-19 16:34:25 4206 1

原创 scala Array 介绍

目录 scala Array创建 Array遍历 ArrayArray 最大值Array 的长度创建多维数组Array 包中的函数需要导入 import Array._def apply( x: T, xs: T* ): Array[T] 创建数组def concat[T]( xss: Array[T]* ): Array[T] 合并数组，所有的数组必须是同一类型def ...

2018-04-16 22:53:54 2139

原创 scala list

目录创建列表List 属性列表的连接fill() 创建多个重复的元素List.tabulate() 创建列表reverse 列表反转列表常用函数“+:” 像列表前面预添加元素“::” 和”+:” 效果一样“:::” list1 ::: list2“:+” : list :+ item list 和 item 顺序不能反过来addString 函数，返回StringB...

2018-04-15 11:31:24 933

原创 scala 程序设计之函数式编程

目录第6章 scala 函数式编程函数式编程优势什么是函数式编程函数式编程的特点目录第6章 scala 函数式编程函数式编程优势函数式编程主要可以为当前面临的三大挑战提供解决方案并发需求，函数式编程提供了很好的并发性，可以对应用进行水平扩展，并提供了对抗服务器故障的能力多线程程序的大部分难点在于对公共的可变状态进行访问时同步问题。如果去掉了公共状态的...

2018-04-11 09:35:12 278

原创 scala 程序设计第4章：模式匹配

4目录：模式匹配4.1 简单匹配4.2 match中的值、变量和类型4.3 序列的匹配4.4 元组的匹配4.5 case 中的guard 语句4.6 case 类的匹配4.6.1 unapply 方法4.6.2 unapplySeq 方法4.7 可变参数列表的匹配4.8 正则表达式的匹配4.9 再谈case语句的变量绑定4.10 再谈类型匹配4.11 封闭继承层级...

2018-04-08 22:08:31 483

原创 scala 程序设计第3章

目录目录3.1 操作符重载3.2 无参数方法3.3 优先级规则3.4 领域特定语言3.5 Scala 中的 if 语句3.6 Scala 中的for推导式3.6.1 for循环3.6.2生成器表达式3.6.3 保护试：筛选元素3.6.4 Yielding3.6.5 扩展作用域与值定义3.7 其他循环结构3.8 条件操作符3.9 使用 try、c...

2018-04-02 22:37:16 1884

原创 scala 程序设计第2版-第2章

2.1 分隔符，是指scala表达式之间的分隔符，有很多种。// 末尾的等号表面下一步还有未结束的代码def equalsign(s:String) = println("equalsing: " + s)// 末尾的花括号表面下一行还有未结束的代码def equalsign2(s:String) = { println("equalsign2: " + s)}...

2018-03-29 23:07:38 812

原创大话数据结构-线性表

1.1 线性表(List)：零个或多个数据元素的有限序列1.2 线性列表中的元素的数据类型相同线性表的操作 1、ADD(在最后面追加) 2、INSERT(在任意位置插入元素) 3、DELETE(删除元素)1.3 线性表存储结构：顺序存储和链式存储顺序存储：使用一段连续的地址的存储单元依次存储线性表的数据元素 1.3.1 顺序存储结构3大要素：存储空间的起始位...

2018-03-22 15:04:05 284

原创 spark scala RDD

1、创建RDD从外部数据源创建从父RDD创建使用makeRDD() 和 parallelize() 这两个函数创建1.1 从外部数据源进行创建(HDFS,HBASE等) Cassandra、Amazon S3,spark 支持的文本文件、SequeceFile和任何hadoop InputFormat格式的文件# textFile(hdfs_file_path)val in...

2018-03-22 15:01:55 840

原创 python list 内置函数

1、list.append() 想列表中添加一个元素，在列表的最后进行追加In [28]: help(l1.append)Help on built-in function append:append(...) method of builtins.list instance L.append(object) -> None -- append object to end...

2018-03-19 16:56:35 1961

原创大话数据结构笔记第一章

数据结构的定义：相互之间存在一种或多种特定关系的数据元素的集合数据：是描述客观事物的符号，是计算机中可以操作的对象，是能被计算机识别，并输入给计算机处理的符号集合数据元素：是组成数据的、有一定意义的基本单位，在计算机中通常作为整体处理。也被称为记录数据项：一个数据元素可以由若干个数据项组成例如：人这样的数据元素，可以有眼、耳、鼻、嘴、手、脚这些数据项，也可有姓名、年龄、性别，出生地...

2018-03-19 15:17:16 175

原创 hive select 1

LIMIT 语句hive (default)> SELECT upper(name), salary,deductions["Federal Taxes"], round(salary * (1 - deductions["Federal Taxes"])) FROM employees limit 2;JOHN DOE 100000.0 0.2 ...

2018-03-12 23:02:13 1791

原创 hive partition分区表使用Python代码导入数据

写这篇博客的背景，先有数据，想使用hive进行分析，导入hive中很是吃力。先看数据源前10行 NASDAQ,ABXA,2009-12-09,2.55,2.77,2.50,2.67,158500,2.67 NASDAQ,ABXA,2009-12-08,2.71,2.74,2.52,2.55,131700,2.55 NASDAQ,ABXA,2009-12-07,2.65,2.76,2....

2018-02-28 09:34:27 1802

原创 python3 str数据类型自带函数

str.capitalize() 将首字母由小写变为大写(如果是大写还是输出大写)，其他字符由大写变成小写(如果是小写，就直接输出小写)In [91]: help(str.capitalize)Help on method_descriptor:capitalize(...) S.capitalize() -&gt; str Return a capitalize...

2018-02-23 16:50:36 580

原创 hive select 语句

hive 查询操作： 1、列匹配正则表达式 select 查询列使用正则表达式匹配列，hive 0.13 版本之前直接用。0.13及后续版本需要开设置hive的属性set hive.support.quoted.identifiers=none;hive (mydb)> select `price.*` from stocks;OK3.31 1.31 3....

2018-02-01 11:41:42 5196

原创 hive 数据操作

hive 版本 1.2.2 向表中装载数据 1、LOAD DATA LOCAL INPATH ‘/tmp/data.csv’ OVERWRITE INTO TABLE test PARTITION(year=’2017’,month=’1’); LOCAL 关键字，加载本地的数据，如果不加这个关键字，就是加载hdfs上的文件

2018-01-31 19:45:10 335

原创 HiveQL：数据定义

一、HQL的官方帮助文档 HiveQL 官方帮助文档：https://cwiki.apache.org/confluence/display/Hive/Home#Home-UserDocumentation HiveQL：hive使用的查询语言，类似于SQL，最接近mysql的sql语言，这两者都不完全遵守ANSI SQL 标准。hiveQL和mysql SQL的比较 1、hive 不支

2018-01-29 16:07:36 456

原创 hive 数据类型和文件格式

hive 基本数据类型 1、和标准的sql语言类似，这些关键字为h-sql 的保留字。2、所有的这些数据类型都是java中的接口是实现，因此这些类型的具体细节和java中对应的类型完全一致。例如，STRING类型实现的是java中的String，FLOAT 实现的是java中的float3、hive 中不支持"字符数组"类型。传统关系型数据库，字符数组主要出于性能优化的考虑。因为定长的记

2018-01-29 14:07:31 780

原创 hive 基本命令介绍

hive 命令行的使用 hive –help 获取帮助信息 [root@master data]# hive --hlep --service cli Unrecognized option: --hlep usage: hive -d,--define Variable subsitution to apply to hiv

2018-01-26 15:49:16 2660

原创 hive sql 基本语法

1、创建库 hive> CREATE DATABASE test_hive; OK Time taken: 0.197 seconds hive> show databases; OK default test_hive Time taken: 0.009 seconds, Fetched: 2 row(s) 2、创

2018-01-25 17:23:14 567

原创 hive 编程基础1

从hive最基础的开始记录一、hive的安装1、版本1.2.2，hadoop 版本 2.6.5 下载地址：http://mirrors.shu.edu.cn/apache/hive/hive-1.2.2/apache-hive-1.2.2-bin.tar.gz2、tar xf apache-hive-1.2.2-bin.tar.gz3、配置环境变量 [root@mast

2018-01-25 13:43:28 197

原创 python基础教程2

python 基础教程笔记2 列表和元组目录2.1数据类型2.2元组和列表的区别2.3列表的操作2.4列表的函数2.5元组 2.1简单和复杂数据类型复杂：列表，元祖，集合，字典数字：整型，浮点型字符：字符串python 包含6种内建的序列：列表、元组、字符串、Unicode字符串、buffer对象和xrange对象2.2

2017-11-03 11:43:52 342

原创 python 基础1

python 基础教程(笔记)一说明所有的代码都会在python 2.7.5和 python 3.6.1测试。如果效果相同只给一份，如果因语法不同会分别给出目录第一章 python 基础知识1.1数字和数学表达式1.2 python 2.x和python 3.x print的区别1.3 python 2.x和 python 3.x input的

2017-11-03 11:42:25 662