- 博客(58)
- 资源 (11)
- 收藏
- 关注
转载 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure
1:遇到这个问题是在启动bin/spark-shell以后,然后呢,执行spark实现wordcount的例子的时候出现错误了,如:scala> sc.textFile("hdfs://slaver1:9000/hello.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).collect执行上面操作之前我是这样启动我...
2019-06-06 16:37:01
1579
1
原创 jupyter notebook不能选择虚拟环境的解决方法
今天使用dlib没有py37版本,因此创建了Version_36虚拟环境。但jupyter notebook默认的内核找不到新建的虚拟环境,解决方法是需要安装两个包:× ipykernel× nb_conda安装完成后效果如下:...
2019-04-01 16:36:27
1530
原创 【机器学习业务篇】数据科学家的武器库
数据科学是一个发现和解释数据中的模式,并用于解决问题的过程。这个过程实际上就是个劳动过程。在数据科学中有三个劳动对象,分别为数据、信息、知识,最终的产出品为决策和行为。数据科学的运用场景:圆的上半部分主要用于数据挖掘类的,下半部分主要用户描述性统计和统计分析的方法数据科学家是一个团队,一般有三个角色数据集市指的是从数据仓库中提取的某个主题或针对某个活动的数据...
2019-03-01 17:51:14
319
原创 【机器学习小案例篇】根据客户类型制定营销策略
from pyspark.sql import SparkSessionimport pandas as pdfrom sklearn import preprocessingIn[7]:#创建SparkSessionspark = SparkSession.builder \ .master("local") \ .appName("Ma...
2019-03-01 13:17:42
398
原创 【机器学习大数据篇】对企业架构,Spark,HIVE,RDD,Spark sql深度透彻了解
传统的方式用的是spark+RDD新的方式是用DataFrame做新的案例,python与spark相结合,做分析范式已经普及开来了架构详解:最底层的是数据的导入,导入之前是各种形态的,一类是orcale,mysql...,另一类是csv,txt...SQOOP是导入结构化数据的,FLUME,KAFKA是导入流式数据的数据导入后,紧接着就是存储,目前存储有三个模块,HD...
2019-02-28 19:01:18
521
原创 【机器学习大数据篇】spark2.x+python精华实战课程
资料科学:从大数据中汲取知识,是用有效率以及智能的方式处理巨量资料的科学为什么需要资料科学?1.企业意识到资料的重要性2.资料收集越来越多3.数量越来越大和过去相比分析的差异:效率高,更加智能大数据的定义:结构化数据:关系型数据库表示和存储 机器学习半结构化数据:常见的有XML和JSON非结构化数据:各种文档、图片、视频/音频等都属于非结构...
2019-02-28 08:54:49
956
1
转载 【机器学习大数据篇】Spark集群三种部署模式的区别
Spark最主要资源管理方式按排名为Hadoop Yarn, Apache Standalone 和Mesos。在单机使用时,Spark还可以采用最基本的local模式。目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,...
2019-02-24 21:00:51
370
转载 【机器学习算法篇】sklearn LogisticRegression - 参数说明
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.youkuaiyun.com/jark_/article/details/78342644 </div> <div id="content_views" cl...
2019-02-22 13:07:48
1828
原创 【机器学习算法篇】学习一点总结
奥卡姆剃刀:多个假设与观察一致,选择最简单的那个。 线性模型:试图学得一个通过属性的线性组合来进行预测的函数,即,一般用向量形式写成。包括线性回归、逻辑回归、线性判别分析,多分类任务。 均方误差是回归任务最常用的性能度量: 基于均方误差最小化来进行模型求解的方法称为“最小二乘法” 二维平面上点a(x1,y1)与b(x2,y2)间的欧氏距离:曼哈顿距离:切比雪...
2019-02-19 02:19:44
254
原创 【机器学习算法篇】决策树
决策树是一种基本的分类与回归方法。决策树的学习过程特征选择:从训练数据的特征中选择一个特征作为当前节点的分裂标准(特征选择的标准不同产生了不同的特征决策树算法)。 决策树生成:根据所选特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止。 剪枝:决策树容易过拟合,需要剪枝来缩小树的结构和规模(包括预剪枝和后剪枝)。实现决策树的算法包括ID3、C4.5算法等实现决策树的算法包...
2019-02-19 02:19:26
377
原创 【机器学习算法篇】一、线性回归
预测函数: 损失函数:参数: (正规方程)以上即为参数最优解的闭式解,但我们可以发现*的计算涉及矩阵的求逆,这样的话就有一些限制了,只有在X^T*X为满秩矩阵或者正定矩阵时,才可以使用以上式子计算。但在现实任务中,X^T*X往往不是满秩矩阵,这样的话就会导致有多个解,并且这多个解都能使均方误差最小化,但并不是所有的解都适合于做预测任务,因...
2019-02-18 18:32:18
340
转载 【机器学习杂烩篇】Pandas merge( )合并
merge( )合并需要指定连接键。多对一的合并操作on参数指明单个连接键In [5]: df1=pd.DataFrame({'key':['b','b','a','a','b','a','c'],'data1':range(7)})In [6]: df2=pd.DataFrame({'key':['a','b','d'],'data2':range(3)})In [7]...
2019-02-18 01:13:50
681
转载 【机器学习杂烩篇】pandas Map和replace
import pandas as pdimport numpy as npfrom pandas import Series, DataFramedf1 = DataFrame({"城市":["北京","上海","广州"], &a
2019-02-18 00:21:18
173
转载 【机器学习杂烩篇】Python两个内置函数—locals 和globals
这两个函数主要提供,基于字典的访问局部和全局变量的方式。在理解这两个函数时,首先来理解一下python中的名字空间概念。Python使用叫做名字空间的东西来记录变量的轨迹。名字空间只是一个字典,它的键字就是变量名,字典的值就是那些变量的值。实际上,名字空间可以象Python的字典一样进行访问每个函数都有着自已的名字空间,叫做局部名字...
2019-02-18 00:12:39
173
1
原创 【机器学习小案例篇】关于RFM模型的小案例
import pandas as pd1. 导入数据In [75]:trad_flow = pd.read_csv('D:\python\Script\RFM_TRAD_FLOW.csv',encoding='gbk') #编码格式需要进行修改trad_flow.head() #默认前五行Out[75]: transID cumid time ...
2019-02-17 15:49:35
1456
1
转载 【机器学习python篇】十分钟搞定pandas
本文是对pandas官方网站上《10 Minutes to pandas》的一个简单的翻译,原文在这里。这篇文章是对pandas的一个简单的介绍,详细的介绍请参考:Cookbook 。习惯上,我们会按下面格式引入所需要的包:一、 创建对象可以通过 Data Structure Intro Setion 来查看有关该节内容的详细信息。1、可以通过传递一个list...
2019-02-17 14:13:16
237
转载 【机器学习杂烩篇】Pandas中的qcut和cut
qcut与cut的主要区别: qcut:传入参数,要将数据分成多少组,即组的个数,具体的组距是由代码计算 cut:传入参数,是分组依据。具体见示例 1、qcut方法,参考链接:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.qcut.html 1).参数:pandas.qcut(x, q, label...
2019-02-17 13:46:43
681
转载 【机器学习杂烩篇】Pandas 排序sort_values
1 排序 按照某一列的大小进行排序。Py3目前提供两个函数。 1.1 sort_index 这个函数似乎不建议使用了,推荐使用sort_values详情参看:官方文档。 ## 参数sort_index(axis=0, level=None, ascending=True, inplace=False, kind='quickso...
2019-02-17 13:21:29
389
转载 【机器学习杂烩篇】pandas fillna()函数详解
inplace参数的取值:True、FalseTrue:直接修改原对象False:创建一个副本,修改副本,原对象不变(缺省默认)method参数的取值 : {‘pad’, ‘ffill’,‘backfill’, ‘bfill’, None}, default Nonepad/ffill:用前一个...
2019-02-17 13:09:46
10000
转载 【机器学习杂烩篇】详解 Pandas 透视表(pivot_table)
介绍也许大多数人都有在Excel中使用数据透视表的经历,其实Pandas也提供了一个类似的功能,名为 pivot_table。虽然pivot_table非常有用,但是我发现为了格式化输出我所需要的内容,经常需要记住它的使用语法。所以,本文将重点解释pandas中的函数 pivot_table,并教大家如何使用它来进行数据分析。如果你对这个概念不熟悉,维基百科上对它做了详细的解释。顺便说一下...
2019-02-17 11:43:04
471
转载 【机器学习业务篇】基于RFM模型的用户分群方法
一、RFM模型RFM分析就是根据客户活跃程度和交易金额的贡献,进行客户价值细分的一种方法。RFM的含义:R(Recency):客户最近一次交易时间的间隔。R值越大,表示客户交易发生的日期越久,反之则表示客户交易发生的日期越近。F(Frequency):客户在最近一段时间内交易的次数。F值越大,表示客户交易越频繁,反之则表示客户交易不够活跃。M(Monetary):客户在最近一段...
2019-02-17 10:37:05
2973
转载 【机器学习大数据篇】Windows和PC机上搭建Spark+Python开发环境的详细步骤
0准备工作 查看操作系统的版本信息:计算机>>右键“属性”>>查看版本信息,如Windows10专业版64位。 1安装Anaconda 1.1 下载 注意选择与操作系统匹配的版本,截止写本教程时,官方版本为Anaconda5.0.1,内部封装的为Python3.6,也可根据需要下载封装其他版本Python的An...
2019-02-16 14:06:18
746
转载 【机器学习杂烩篇】关于python中axis=0还是axis=1的讨论
首先请看一下官方帮助的解释:轴用来为超过一维的数组定义的属性,二维数据拥有两个轴:第0轴沿着行的垂直往下,第1轴沿着列的方向水平延伸。注意看,官方对于0和1的解释是轴,也就是坐标轴。而坐标轴是有方向的,所以千万不要用行和列的思维去想axis,因为行和列是没有方向的,这样想会在遇到不同的例子时感到困惑。根据官方...
2019-02-15 23:08:20
525
1
原创 【机器学习python篇】五、Pandas的用法
# -*- coding: utf-8 -*-import numpy as npimport pandas as pdimport sysfrom pandas import Series, DataFrame###pandas#Seriesobj = Series([4, 7, -5, 3])objobj.valuesobj.index...
2019-02-15 17:01:58
240
原创 【机器学习python篇】四、Numpy的介绍(二)
# -*- coding: utf-8 -*-from __future__ import divisionfrom numpy.random import randnimport numpy as np# -*- coding: utf-8 -*-###通用函数arr = np.arange(10)np.sqrt(arr)np.exp(arr...
2019-02-15 15:59:50
343
原创 【机器学习python篇】三、Numpy的介绍(一)
np.array可以生成多维数组对象ndarraynp.zeros同样生成多维数组对象ndarray 索引和切片(在机器学习中用的最多的地方,必须理解透彻,熟能生巧)# -*- coding: utf-8 -*-#向量相加-Pythondef pythonsum(n): a = range(n) b = range(n) c = []...
2019-02-15 12:52:03
218
原创 【机器学习技巧篇】本人长期总结的小技巧 持续更新中~
Ipytnon中代码实现中非常实用的快捷方式(Shift-Tab : 提示),可以查看该函数的参数,返回类型,最棒的是下面还有例子。
2019-02-15 01:13:19
150
转载 【机器学习工具类】Jupyter Notebook 快捷键(基本)
Jupyter Notebook 快捷键Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。命令模式 (按键 Esc 开启)Enter : 转入编辑模式 Shift-Enter : 运行本单元,选中下个单元 Ctrl-Enter : 运行本单元 Alt-Ente...
2019-02-15 01:05:01
134
原创 【机器学习python篇】二、python条件、循环语句、常用函数、转义字符、字符串、日期时间、自定义函数、open函数、异常处理
嵌套for循环生成质数 Python 原始字符串操作符(r/R) 命名参数def printinfo( name, age ): "打印任何传入的字符串" print "Name: ", name; print "Age ", age; return; #调用prin...
2019-02-14 23:44:12
144
原创 【机器学习python篇】一、python基础语法、数据类型、运算符的介绍
%run+脚本路径 运行脚本以下划线开头的变量名含义 参考文献 炼数成金教学视频
2019-02-14 18:52:50
152
转载 浅谈Service Manager成为Android进程间通信(IPC)机制Binder守护进程之路
上一篇文章Android进程间通信(IPC)机制Binder简要介绍和学习计划简要介绍了Android系统进程间通信机制Binder的总体架构,它由Client、Server、Service Manager和驱动程序Binder四个组件构成。本文着重介绍组件Service Manager,它是整个Binder机制的守护进程,用来管理开发者创建的各种Server,并且向Client提供查询Ser
2016-02-03 23:51:24
507
转载 Android进程间通信(IPC)机制Binder简要介绍和学习计划
在Android系统中,每一个应用程序都是由一些Activity和Service组成的,这些Activity和Service有可能运行在同一个进程中,也有可能运行在不同的进程中。那么,不在同一个进程的Activity或者Service是如何通信的呢?这就是本文中要介绍的Binder进程间通信机制了。 我们知道,Android系统是基于Linux内核的,而Linux内核继承和兼
2016-02-02 16:08:24
309
转载 Android日志系统Logcat源代码简要分析
在前面两篇文章Android日志系统驱动程序Logger源代码分析和Android应用程序框架层和系统运行库层日志系统源代码中,介绍了Android内核空间层、系统运行库层和应用程序框架层日志系统相关的源代码,其中,后一篇文章着重介绍了日志的写入操作。为了描述完整性,这篇文章着重介绍日志的读取操作,这就是我们在开发Android应用程序时,经常要用到日志查看工具Logcat了。
2016-02-02 15:24:52
530
转载 Android应用程序框架层和系统运行库层日志系统源代码分析
在开发Android应用程序时,少不了使用Log来监控和调试程序的执行。在上一篇文章Android日志系统驱动程序Logger源代码分析中,我们分析了驱动程序Logger的源代码,在前面的文章浅谈Android系统开发中Log的使用一文,我们也简单介绍在应用程序中使Log的方法,在这篇文章中,我们将详细介绍Android应用程序框架层和系统运行库存层日志系统的源代码,使得我们可以更好地理解Andr
2016-02-02 15:23:40
915
转载 Android日志系统驱动程序Logger源代码分析
我们知道,在Android系统中,提供了一个轻量级的日志系统,这个日志系统是以驱动程序的形式实现在内核空间的,而在用户空间分别提供了Java接口和C/C++接口来使用这个日志系统,取决于你编写的是Android应用程序还是系统组件。在前面的文章浅谈Android系统开发中LOG的使用中,已经简要地介绍了在Android应用程序开发中Log的使用方法,在这一篇文章中,我们将更进一步地分析Logger
2016-02-02 14:25:02
457
转载 介绍一款Android小游戏--交互式人机对战五子棋
学习Android系统开发之余,编写了一个小游戏--交互式人机对战五子棋,自娱自乐。之所以称之为交互式人机对战五子棋,一是因为在进入人机对战模式这前,你可以任意设置好开局,同时,在对战过程中,你可以看到机器的思考过程,还可以标识出每一个落子点的优劣势;二是因为可以为机器增加游戏经验,使得机器越来越聪明。希望喜欢五子棋的同学能够喜欢,同时,它也非常适合入门级练习。 首先展示一下这
2016-02-01 17:59:22
725
转载 制作可独立分发的Android模拟器
如果我们编写了一个Android应用程序,想在一台没有Android SDK或者BUILD环境的机器显示给别人看,应该怎么办呢?通常,我们开发Android应用程序的时候,都是使用模拟器来运行程序,要么是SDK环境下,要么是在源代码BUILD环境下使用。在SDK环境下,结合Eclipse和ADT,使用模拟器很方便,而BUILD环境下,也是很简单地使用emulator命令就可以了,具体可以参考在Ub
2016-02-01 17:52:53
365
RFM模型小案例的原始数据
2019-02-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人