
数据分析(Data Analysis)
文章平均质量分 90
WilenWu
本站已停止更新,查看最新内容请移步至本人 github 个人网站
展开
-
大数据手册(Hive)--HiveQL
目录HIVE命令HIVE数据类型HIVE内置运算符HiveQL常用语句创建/删除数据库创建/删除表修改表结构导入数据插入数据查询语句其他常用命令HIVE常用内置函数Hive视图和索引hive性能调优Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。HIVE命...原创 2018-07-03 17:57:36 · 14240 阅读 · 1 评论 -
Oracle SQL手册
结构化查询语言(Structured Query Language)简称SQL,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。 数据库 Oracle MySQL 启动和关闭 sqlplus NET START mysql57NET STOP mysql57 登录(user+password) sys/p as sy...原创 2018-07-04 15:33:56 · 2470 阅读 · 0 评论 -
大数据手册(Spark)--Spark安装配置
spark入门介绍及环境搭建 Spark菜鸟进阶 Spark(一): 基本架构及原理 spark伪分布standalone搭建原创 2018-06-24 21:52:29 · 1125 阅读 · 1 评论 -
大数据手册(Linux)--Linux基础知识
Linux简介1. Linux 关机2. 远程登陆Linux 重要系统目录Linux 文件与目录管理1. 文件和目录2. 文件和目录常用操作命令3. Linux文件权限4. 文件的压缩和打包Shell基础1. 运行 Shell 脚本2. Shell 输入/输出重定向3. 管道操作Ubuntu包管理工具1. dpkg2. apt3....原创 2018-06-17 19:26:49 · 1481 阅读 · 1 评论 -
大数据手册(Linux)--Linux shell教程
ShellShell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。Shell 变量定义变量时,变量名和等号之间不能有空格还可以用控制/循环语句给变量赋值使用变量,只要在变量名前面加美元符号$即可变量名外面加...原创 2018-06-22 13:38:14 · 795 阅读 · 0 评论 -
Hadoop生态概述及常见报错
Hadoop Hadoop是一个开源框架来存储和处理大型数据在分布式环境中。它包含两个模块,一个是MapReduce,另外一个是Hadoop分布式文件系统(HDFS)。 MapReduce:它是一种并行编程模型在大型集群普通硬件可用于处理大型结构化,半结构化和非结构化数据。 HDFS:Hadoop分布式文件系统是Hadoop的框架的一部分,用于存储和处理数据集。它提供了一个容错文件系统在普通硬件上运行。 Hadoop生态系统包含了用于协助Hadoop的不同的子项目(工具)模块,如Sqoo原创 2021-05-04 14:28:12 · 302 阅读 · 0 评论 -
大数据手册(Spark)--Spark流数据处理
文章目录Spark StreamingSpark安装配置Spark基本架构及运行流程Spark基础知识(PySpark版)Spark机器学习(PySpark版)Spark流数据处理(PySpark版)Spark StreamingHadoop的MapReduce及Spark SQL等只能进行离线计算,无法满足实时性要求较高的业务需求,例如实时推荐、实时网站性能分析等,流式计算可以...原创 2020-01-13 17:48:05 · 6621 阅读 · 1 评论 -
大数据手册(Spark)--Spark机器学习
MLlibApache Spark提供了一个名为 MLlib 的机器学习API。PySpark也在Python中使用这个机器学习API。它支持不同类型的算法,如下所述mllib.classification - spark.mllib 包支持二进制分类,多类分类和回归分析的各种方法。分类中一些最流行的算法是 随机森林,朴素贝叶斯,决策树 等。mllib.clusteri...原创 2020-01-09 16:29:34 · 1650 阅读 · 1 评论 -
数据分析手册--目录
其中,标记星星⭐的是本人的必学包,❤为待选包。目录LinuxLinux基础知识HadoopHadoop安装配置Hadoop基础知识hadoopr:R语言接口pyhadoop:python接口HiveHive安装配置Hive基础知识SparkSpark安装配置Spark基础知识sparkR: ❤Apache Spark R APIs...原创 2020-01-03 16:25:46 · 1000 阅读 · 0 评论 -
大数据手册(Spark)--Spark SQL and DataFrames
文章目录Spark 初始化弹性分布式数据集 (RDD)Spark SQLDataFrameDataSetSpark StreamingSpark 初始化spark 交互式执行环境spark-shell --master <master-url> # scalapyspark --master <master-url> # python下面介绍几种常用Spar...原创 2020-01-03 16:20:25 · 1854 阅读 · 1 评论 -
大数据手册(Spark)--Spark Core and RDDs
Spark修炼之道——Spark学习路线、课程大纲SparkSQL(Spark-1.4.0)实战系列Scala入门到精通Machine Learning On SparkAkka框架依照卡片更新quanteda:文本挖掘devtools: 开发包h20: 数据挖掘框架keras:深度学习机器学习算法和说明sparklyr原创 2020-01-03 16:10:18 · 785 阅读 · 1 评论 -
二分类模型评价指标
二分类模型指标 参考链接:https://blog.youkuaiyun.com/shy19890510/article/details/79501582混淆矩阵 TP(实际为正预测为正),FP(实际为负但预测为正),TN(实际为负预测为负),FN(实际为正但预测为负)准确率 Accuracy=TP+TNTP+FP+TN+FNAccuracy=TP+TNTP+FP+TN...原创 2018-09-16 12:07:49 · 876 阅读 · 0 评论 -
数据分析理论概览
目录Part 1 概率论与数理统计Part 2 方差分析Part 3 回归(regression)1. 线性模型2. 广义线性模型Part 4 分类Part 5 聚类Part 6 文本分析Part 7 时间序列Part 1 概率论与数理统计 抽样 sample 随机采样 random sampling...原创 2018-05-09 21:31:41 · 819 阅读 · 0 评论