- 博客(22)
- 收藏
- 关注
转载 转-xmind7破解方法
转-xmind7破解方法转自https://blog.youkuaiyun.com/zengmingen/article/details/81125323第一步:下载xmind7链接:https://pan.baidu.com/s/1YX84I1eJbiXdp2aBf1_GeQ密码:btb6不要在国内下载最新版的,就下载上面的。如果上面的失效,访问国外网站下载:http://w...
2018-07-30 16:35:46
2595
1
转载 机器学习之离散型特征的处理-one hot encoder
转载自https://www.cnblogs.com/daguankele/p/6595470.html 1、什么是独热码 独热码,在英文文献中称做 one-hot code, 直观来说就是有多少个状态就有多少比特,而且只有一个比特为1,其他全为0的一种码制。在机器学习中对于离散型的分类型的数据,需要对其进行数字化比如说性别这一属性,只能有男性或者女性或者其他这三种值,如何对这三个值进
2018-01-31 14:49:49
8266
原创 PySpark 学习笔记六
6 Structured Streaming 6.1 What is Spark Streaming?Spark Streaming的核心是一个可扩展的容错流系统,它采用RDD批处理模式(即批量处理数据)并加快速度。 如下图所示,Spark Streaming接收输入数据流,并在内部将该数据流分成多个较小的批次(其大小基于批处理间隔)。 Spark引擎将这些批量的输入数据处理成批量的结果集
2018-01-22 17:47:14
5355
1
原创 PySpark 学习笔记五
5 Introducing the ML Package 在前面,我们使用了Spark中严格基于RDD的MLlib包。 在这里,我们将基于DataFrame使用MLlib包。 另外,根据Spark文档,现在主要的Spark机器学习API是spark.ml包中基于DataFrame的一套模型。 5.1 ML包的介绍 从顶层上看,ML包主要包含三大抽象类:转换器、预测器和工作流。5.1.1
2018-01-22 10:38:34
10537
原创 PySpark 学习笔记四
4 Introducing MLlib MLlib 即Machine Learning Library。 4.1 载入数据并转换数据 数据集下载:births_train.csv.gz.。 创建数据集的schema:import pyspark.sql.types as typlabels = [ ('INFANT_ALIVE_AT_REPORT', typ.Strin
2018-01-18 18:01:14
9961
原创 PySpark 学习笔记三
3 Prepare Data for Modeling 所有的数据都是脏的,不管是从网上下载的数据集,或其他来源。直到你测试和证明你的数据处于干净状态才能用来建模。因此,为了建模需要清理数据集,还需要检查数据集的特征分布,并确认它们符合预定义的标准。 3.1 检查重复项、缺失值和异常值重复项生成一个简单的dataframe如下:>>> df = spark.create
2018-01-16 18:59:29
11890
1
原创 PySpark 学习笔记二
2 DataFrames 和Python的dataframe类似,pyspark也有dataframe,其处理速度远快于无结构的RDD。 Spark 2.0 用 SparkSession 代替了SQLContext。各种 Spark contexts,包括: HiveContext, SQLContext, StreamingContext,以及SparkContext 全部合并到
2018-01-15 14:48:20
5774
3
原创 PySpark 学习笔记一
为了更好地进行大数据分析与处理,最近在学习PySpark,整理了一下笔记 ,加深印象。1 Resilient Distributed Datasets(RDD)弹性分布式数据集(RDD)是一个不可变的JVM对象的分布式集合,是Spark的基本抽象。1.1 创建RDD 准备工作:>>> import pyspark>>> from pyspark import SparkC
2018-01-12 17:03:30
8808
1
转载 Pymongo Tutorial & Pymongo入门教
Pymongo入门教程转载自http://www.open-open.com/lib/view/open1414223469247.html 本教程是pymongo和Mongo的一个简单介绍,基于pymongo2.7.2的tutorial。看完后应该对Pymongo对Mongo的基本操作有认识了。教程这教程是pymongo和Mongo的一个简单介绍。看完后应该对Pymongo
2018-01-10 17:11:15
4741
转载 Ubuntu下安装MongoDB
Ubuntu下安装MongoDB转载自https://www.cnblogs.com/melonjiang/p/6536876.html下载python中MongoDB的驱动程序 pip install pymongo然后确保MongoDB已经安装且可以正常运行,去官网下载相应版本mkdir -p /home/toolscd/home/toolswget h
2018-01-10 16:36:25
4940
原创 Ubuntu下安装pyspark
Ubuntu下安装pyspark安装环境 Python2.7 Ubuntu14.04Java6+ 步骤一:下载spark 下载地址:spark官网 ,我选择的是spark-2.2.1-bin-hadoop2.7.tgz步骤二:解压压缩包tar -xzf spark-2.2.1-bin-hadoop2.7.tgz步骤三:移动spark位置(可略)
2018-01-08 15:12:08
12986
2
原创 SQL查询重复的记录
面试的时候被问到了一道很简单的sql题目,开始做错了,经过面试官提醒才改对。有必要在此记录一下,警示自己。题目: 在user表中,有属性id、name 两列,查出name属性值重复2次以上的记录数据。解析: 使用group by答案: select * from user where name in(select name from user group by name having co
2017-10-09 17:14:55
4807
原创 《数据库SQL实战》不使用order by
此题来自于nowcoder,要求不使用order by 取排名第二多的数据。 题目: 查找当前薪水(to_date=’9999-01-01’)排名第二多的员工编号emp_no、薪水salary、last_name以及first_name,不准使用order by CREATE TABLE employees ( emp_no int(11) NOT NULL, birth_d
2017-10-07 18:02:08
5662
原创 数据库INNER JOIN、LEFT JOIN和RIGHT JOIN
由于对数据库的INNER JOIN、LEFT JOIN和RIGHT JOIN的用法有点模糊不清,特在此做一个梳理总结。 首先需明确一个概念:A INNER/LEFT/RIGHT JOIN B操作中,A表被称为左表,B表被称为右表。 然后记住以下三点:A INNER JOIN B ON…… 内联操作,将符合ON条件的A表和B表结果均搜索出来,然后合并为一个结果集。A LEFT JOIN B
2017-09-29 15:55:12
4842
原创 《数据库SQL实战》查找涨幅超过15次
此题来自nowcoder, 开始题目的意思没有读懂 题目: 查找薪水涨幅超过15次的员工号emp_no以及其对应的涨幅次数t CREATE TABLE salaries ( emp_no int(11) NOT NULL, salary int(11) NOT NULL, from_date date NOT NULL, to_date date NOT NULL
2017-09-29 11:27:10
4790
原创 《数据库SQL实战》取倒数第三
此题来自于nowcoder,在此记录一下limit的用法,加深印象。 题目:查找入职员工时间排名倒数第三的员工所有信息CREATE TABLE `employees` (`emp_no` int(11) NOT NULL,`birth_date` date NOT NULL,`first_name` varchar(14) NOT NULL,`last_name` varchar(16)
2017-09-29 10:02:19
8984
原创 学习笔记之分析思维
1、学会利用金字塔原理金字塔原理的核心:逻辑化思考、结构化思考、层次化思考 什么是金字塔?任何一件事情都有一个中心论点,中心论点可以划分成3~7个分论点,分论点又可以由3~7个论据支撑。 金字塔的MECE法则(读作MeSee):Mutually Exclusive Collectively Exhaustive,中文意思是相互独立,完全穷尽。也就是说,提出的每一个分论点彼此不冲突,是独立存在
2017-09-28 15:53:48
4658
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人