- 博客(52)
- 资源 (2)
- 收藏
- 关注
原创 机器学习算法之复合算法代码实战及其解析
#导入包import numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasets#自定义数据X,y=datasets.make_moons(random_state=41,noise=0.1,n_samples=500)#绘制数据图形plt.scatter(X[y==0,0],X[y==0,1],c="r")plt.scatter(X[y==1,0],X[y==1,1],c="b")plt.show(.
2020-06-20 22:38:59
1081
原创 机器学习算法之KNN算法代码实战及解析
#从sklearn导入数据集import numpy as npfrom sklearn import datasetsirises=datasets.load_iris()X_train=irises.datay_train=irises.target#导入模块,进行数据训练集和测试数据集的分割from sklearn import model_selection#train_test_split返回一个列表,有四个值,分别接受X_train,X_test,y_train,y_tes.
2020-06-20 22:33:22
581
原创 机器学习算法之支持向量机代码实战及解析
import numpy as np #导入科学计算库import matplotlib.pyplot as plt #画图from sklearn import datasets #导入数据iris=datasets.load_iris() #导入鸢尾花数据#获取特征数据和标签数据X=iris.data #数据y=iris.target #标签#进行筛选,选择标签为0和1的样本,并且特征选择前2个X=X[y<.
2020-06-20 22:29:26
767
原创 解决报错:ImportError: No module named model_selection
from sklearn.model_selection import train_test_splitImportError: No module named 'sklearn.model_selection'报错
2020-06-18 23:17:33
388
原创 PyCharm:Django框架搭建Spark开发环境
1.安装好JDK:JDK所有人肯定都装了,这里就不细说明了。2.安装Hadoop并配置环境变量:hadoop下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/解压hadoop-2.8.3.tar.gz特定路径,如:D:\hadoop-2.8.3添加系统变量HADOOP_HOME:D:\hadoop-2.8.3在系统变量PATH中添加:D:\hadoop-2.8.3\bin安装组件winutils:将winuti
2020-06-08 23:06:20
1360
原创 docker pull {镜像}的时候报错:Get https://registry-1.docker.io/v2/: net/http: request canceled while waiting
docker pull image报错:Error response from daemon: Get https://registry-1.docker.io/v2/: net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers)
2020-06-03 20:59:30
7675
1
原创 机器学习之沙鼠走迷宫
主函数:main.py__author__ = 'alan'from maze import *from q import *def printKey(event): if event.keysym == 'Left': maze.mouse.move_left() elif event.keysym == 'Right': m...
2020-05-01 21:57:15
631
1
原创 机器学习的主要研究领域、基本概念和相关术语的解释
1.主要研究领域:1.1机器学习的两大学派:机器学习:人工智能的重要分支 构造具有学习能力的智能系统 知识、推理、学习 手段:统计,逻辑,代数……统计机器学习 从大量样本出发,运用统计方法,发现统计规律 有监督学习、无监督学习、半监督学习 问题:分类,聚类,回归...
2020-05-01 21:04:49
10162
原创 sparkSql分析函数和窗口函数(rows/range)的语法及案例
sparkSql分析函数(rows/range)的语法及案例 sum、max、 min、 count、 avg等聚合函数 lead、 lag等比较函数 rank等排名函数2.1 rank()排名函数案例:2.2lag() ,lead() 函数使用及案例:4.3range()和rows()的使用及案例: rows/range: 窗口子句,是在分组(partition by)后,表示组内的子分组(也即窗口),是分析函数的计算范围窗口
2020-04-29 22:47:36
3433
原创 单节点的kafka安装及使用及kafka的简介
1.zookeeper的配置:dataDir=/tmp/zookeeperclientPort=21812.kafka的配置:broker.id=0listeners=PLAINTEXT://spark1:9092log.dirs=/opt/softwares/kafka_2.11-2.4.1/logzookeeper.connect=spark1:2181/kafka...
2020-04-28 20:45:06
397
1
原创 初识Hbase:第一个Hbase程序
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.util.Bytes;p...
2020-04-28 19:45:13
180
原创 Hbase输入Int类型数据默认转换为字符类型的原因及缺陷
1.Hbase shell 中插入带int类型的数据在Hbase的shell命令中输入插入一行value为int类型的数据put 'hbase1','row','hb1:age',30Hbase会将int类型数据自动转换为字符类型来存储。方便我们在shell中观察和操作。2.在Java API中编写插入带int类型的数据在Java API插入int型数据会保存为ASCII形式。...
2020-04-27 20:49:45
1759
原创 Hbase的过滤器操作ValueFilter和SingleColumnValueFilter
1.ValueFilter:import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.CompareOperator;import org.apache.hadoop.hbase.HBaseConfiguration;impor...
2020-04-27 20:35:43
1337
1
原创 Hbase的CRUD和matation操作
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hb...
2020-04-27 20:25:48
338
原创 使用Java API对Hbase进行增删改查操作
1.对Hbase的增加操作import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.a...
2020-04-27 20:21:41
521
原创 spark连接mysql并操作数据库的增删改查
1.linux端启动mysql服务:server mysqld start 启动mysql服务进程netstat -anp | grep 3306 查看mysql服务是否启动mysql -u root -p 使用root用户登陆mysql输入密码即可登陆,首次登陆或者无密码,则不需要密码直接回车即可。2.建立数据库集表create database sp...
2020-04-27 20:03:30
2334
1
原创 Oracle大型数据库卸载详细步骤
注:Oracle数据库卸载并非单纯卸载那么简单,需要删除相关服务等卸载步骤:1、停服务 在运行中键入services.msc,进入服务管理页面停止所有Oracle服务2、删程序 在运行中键入control,找到Oracle相关程序,卸载,建议使用360软件管理,可以比较有效的清除残留及无效快捷方式,如文件夹未删除,可手动删除文件夹3、删除相关注册项(不要多删、误删)...
2020-04-23 21:26:38
347
原创 优快云博客积分等级明细
一、博客积分规则:博客积分是优快云对用户努力的认可和奖励,也是衡量博客水平的重要标准。博客等级也将由博客积分唯一决定。积分规则具体如下:1、每发布一篇原创或者翻译文章:可获得10分;2、每发布一篇转载文章:可获得2分;3、博主的文章每被评论一次:可获得1分;4、每发表一次评论:可获得1分(自己给自己评论、博主回复评论不获得积分);5、博文阅读次数每超过100次:可获得1分...
2020-04-22 21:41:34
580
原创 第一个Django项目:博客案例
1.项目结构:2.Blog.settings.py中的INSTALLED_APPS添加'index',属性值。可以搜索到index页面。3.配置主从urls:在Blog里配置主urls,可以映射到从urls。这样配置可以方便以后的URL管理。urlpatterns = [ url(r'^admin/', admin.site.urls), url(r'^blog/...
2020-04-22 21:30:56
316
原创 Hbase的基本操作以及多版本的设置
1.建表create 'hbase1','hb1'2.查看库中有哪些表list3.用describe命令来查看表属性describe 'hbase1'4.增加一个列族alter 'hbase1','hb2'5.插入数据put 'hbase1','row','hb1:name','zhangsan'//一次只能put一个column6....
2020-04-20 21:21:29
1204
原创 HBase的伪分布式安装详细版
1.下载HBase安装包:网盘链接:链接:https://pan.baidu.com/s/1KmZKAxlq_3SK4iPGBheqNA提取码:vwuq2.安装前的准备;2.1:安装vm虚拟机2.2:配置网络和IP内存2.3:关闭防火墙 [root@localhost ~]# chkconfig iptables off2.4:禁用selinux ...
2020-04-20 21:05:17
848
原创 Spark内置算法:Connected Components算法解析及案例和Triangle Counting算法解析及案例
1.Connected Components含义:连通分量算法用图的最低编号顶点的ID标记图的每个连通分量。例如,在社交网络中,连接的组件可以近似于群集。案例:package sparkGraphXimport org.apache.spark.graphx.{GraphLoader, VertexId, VertexRDD}import org.apache.spark.{Sp...
2020-04-20 17:20:18
1259
原创 Spark复习十一:内置图算法,PageRank算法的解析以及简单案例
1.PageRank算法描述:1.1用1/N的页面排名值初始化每个顶点,N是图中顶点总数和。1.2循环: 每个顶点,沿着出边发送PR值1/M,M为当前顶点的出度。 当每个顶点从相邻顶点收到其他发送的PR值后,合计这些PR值后作为当前当前顶点新的PR值。 图中顶点的PR与上一个迭代相比没有显著变化,则退出迭代...
2020-04-20 16:00:59
944
原创 Spark复习十:图聚合操作(aggregateMessages )和 Pregel 和 Pregel API以及操作案例分析
1.图聚合操作aggregateMessages:1.1 聚合操作:aggregateMessages:许多图分析任务中的一个关键步骤是聚集每个顶点的邻域信息,在GraphX中最核心的聚合操作就是aggregateMessages.它主要功能是向邻边发消息,合并邻边收到的消息.1.2.sendMsg和mergeMsg:sendMsg:sendMsg 函数以EdgeCont...
2020-04-19 21:16:07
1206
原创 Spark复习九:Spark GraphX 入门以及Spark图聚合操作相关案例
1.1 图的基本概念:定义:图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种数据结构。作用:图可以对事物以及事物之间的关系建模,图可以用来表示自然发生的连接数据,如:社交网络、互联网web页面常用应用:在地图应用中找到最短路径,基于与他人的相似度图,推荐产品。1.2Spark GraphX:GraphX是Spark中用于图形和图形并行计算的新组件。...
2020-04-19 20:54:04
762
原创 Spark复习八:简述Spark运行流程以及Spark分区以及简述SparkContext
1.简述Spark运行流程:1.构建Spark Application的运行环境,启动SparkContext2. SparkContext向资源管理器(可以是Standalone, Mesos, Yarm)申请运行Executor资源, 并启动StandaloneExecutorbackend3. Executor向SparkContext申请Task4. SparkConte...
2020-04-18 21:47:05
1204
原创 Spark复习七:Spark 连接并操作Mysql
1.步骤: 1.spark 连接并操作mysql 2.退出已有连接的spark:scala> :q 3.加载mysql的jar1.连接Mysql:[root@spark1spark-2.4.5-bin-hadoop2.7]# spark-shell --jars /home...
2020-04-18 21:24:11
397
原创 Spark复习六:DataSet操作
dataSet操作:scala> case class Customer(id:Int,firstName:String,lastName:String,homePhone:String,workPhone:String,address:String,city:String,state:String,zipCode:String)defined class Customerscal...
2020-04-18 21:12:30
379
原创 Spark复习五:DataFrame API操作
1:直接读取文件:scala> val userDF=spark.read.format("csv").option("header","true").option("delimiter",",").load("file:///home/data/users.csv")userDF: org.apache.spark.sql.DataFrame = [user_id: string, ...
2020-04-18 20:54:57
573
原创 Spark复习四:SparkCore重点知识总结
1:RDD 是什么? RDD 即弹性分布式数据集(Resilient Distributed DataSet),它具备像MR等数据流模型的容错性,能在并行计算中高效地进行数据共享进而提升计算性能。RDD中提供了一些转换操作,在转换过程中记录“血缘”关系,但在RDD中并不会存储真正的数据,只是对数据和操作的描述。 RDD 是只读的、分区记录的集合。RDD只能基本于稳定物理存储中的...
2020-04-18 20:42:24
292
原创 spark复习三:SparkJoin操作
1:准备customers.csvscala> val dfCustomers=spark.read.format("csv").option("delimiter",",").option("quote","\"").option("escape","\"").load("file:///home/data/customers.csv")dfCustomers: org.apache...
2020-04-18 20:37:57
577
原创 数据挖掘最常见的六大任务和问题
1.分类问题:从训练样本中学习,构建一个函数(分类器),对样本的所属类别进行判别典型的分类问题:1.垃圾邮件识别2.文本分类3.信用评分4.欺诈检测5.图像识别6.用户流失预测7.营销响应预测8.广告点击率预估9.商品推荐2.聚类问题:从数据中探索样本之间的相似性,把特征相似的样本聚为一类,是一种无目标的探索性分析典型的聚类问题:1.用...
2020-04-17 21:42:35
3632
原创 spark复习二:Broadcast广播变量和accumulator累加器
1.shared variable共享变量:scala> val kvphone=sc.parallelize(List((1,"iphone"),(2,"xiaomi"),(3,"oppo"),(4,"huawei")))kvphone: org.apache.spark.rdd.RDD[(Int, String)] = ParallelCollectionRDD[0] at pa...
2020-04-17 21:22:16
388
原创 spark复习一:sparkRDD的理论及相关操作
1.sparkRDD简介: Spark的核心是RDD(Resilient Distrubuted Dataset),弹性分布式数据集。由AMPLab实验室提出的,属于分布式内存系统的数据集应用。RDD能与其系统兼容,可以导入外部存储系统的数据集:HDFS、HBase或其他hadoop数据源。2.RDD的特性: RDD运算类型 说明 ...
2020-04-17 21:05:13
283
原创 对鸢尾花数据集进行预测
1.步骤:(1)从sklearn导入鸢尾花数据集(2)对数据集进行训练数据和测试数据划分,测试部分用来进行预测。(3)均值方差法进行数据归一化(注意:训练数据和测试数据都要进行)(4)网格搜索对三个参数(weights、p、n_neighbors)查找最优值。(1)knn算法生成器(2)打印最有参数和最好的预测率(3)对测试数据集里面的测试数据进行预测#从sklearn导入鸢...
2020-04-17 20:04:38
2691
原创 基于Processing绘制的森林火灾模型
1.森林火灾模型的2-D元胞自动机的构建,同样模型也可适用于其他模型,比如传染病的传播等。2.规则:(1)在一个空场地(灰色),一棵树以pGrowth的机率成长。(2)如果其相邻树中有至少有一棵树正在燃烧,那么这颗树也会成为一棵燃烧树(红色)。(3)一棵燃烧树(红色)成为一个空场地(灰色)。(4)如果周围没有任何燃烧树,那么这个树成为燃烧树的可能性为pBurn。比如由雷击导致的...
2020-04-14 20:54:38
1558
原创 ETL数据清洗
1.需求:数据来源各种各样,大量的数据中难免会有脏数据,我们需要将脏数据清洗掉,提高数据的准确度。本次要将字段缺失的数据过滤掉,只留下保存度完整的数据。2.项目开发: (1)清洗数据类:package com.xnmzdx.mapreduce.etl;import java.io.IOException;import org.apache.hadoop.io.LongWr...
2020-04-13 21:13:48
566
原创 Storm实时订单分析项目
一.项目需求实时分析某电商网站产生的订单数据。分析订单的有效订单量、订单总金额、优惠后总金额、下单用户数。二.使用主要技术Kafka,Storm,Zookeeper,Redis,MySql三.项目架构架构解析:从web端获取数据订单数据,存入kafka中,storm处理订单数据,在kafka中读取数据,将处理完成的数据写入redis和mysql中四.项目开发:模...
2020-04-13 20:57:01
881
2
原创 spark配置连接hive
1.拷贝hive的hive-site.xml文件到spark的conf目录下2.修改spark中hive-site.xml文件添加以下:<configuration><property> <name>hive.metastore.uris</name><value>thrift://主机名或IP地址:9083</...
2020-04-13 15:08:19
939
order_storm.zip
2020-04-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人