- 博客(47)
- 收藏
- 关注
原创 机器学习前端展示好用工具之streamlit
http://blog.hubwiz.com/2019/11/07/streamlit-manual/
2020-04-13 15:06:40
648
原创 ROC及AUC二值分类判断标准
https://blog.youkuaiyun.com/yinyu19950811/article/details/81288287
2020-04-13 15:03:14
647
原创 sql server
创建:https://blog.youkuaiyun.com/Lesour/article/details/88914198(1)主数据文件用来存储数据库的数据和数据库的启动信息。每个数据库必须有且只有一个主数据文件,其扩展名为.mdf。实际的主数据文件都有两种名称:操作系统文件名和逻辑文件名(在sql语句中会用到)。(2)辅助数据文件用来存储数据库的数据,可以扩展存储空间。一个数据库可以有多个辅助...
2020-04-02 10:58:22
259
转载 nlp--ngram模型和常见数据平滑方法(避免有的词从未出现)
http://52opencourse.com/111/%E6%96%AF%E5%9D%A6%E7%A6%8F%E5%A4%A7%E5%AD%A6%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E7%AC%AC%E5%9B%9B%E8%AF%BE-%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%EF%BC%88...
2020-03-31 09:58:24
686
转载 异常值检测
https://baijiahao.baidu.com/s?id=1619431536284756645&wfr=spider&for=pc
2020-03-27 13:24:11
145
原创 Mnist explaination--introduce to tensorflow
MNIST For ML BeginnersThis tutorial is intended for readers who are new to both machine learning and TensorFlow. If you already know what MNIST is, and what softmax (multinomial logistic) regression i...
2020-03-26 18:44:36
184
原创 SVM
SVM 核函数概念简介:https://blog.youkuaiyun.com/Wisimer/article/details/89573319?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522158511433319724811849788%2522%252C%2522scm%2522%253A%252220140713.130056874…...
2020-03-25 14:11:39
169
转载 如何理解softmax
系数是这个Wij,训练模型主要是为了求出Wijhttps://blog.youkuaiyun.com/weixin_35770067/article/details/103565192?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522158509102919724847023355%2522%252C%2522scm%2522%253A%252...
2020-03-25 10:42:29
115
原创 yarn框架运行过程
Mapreduce1.0缺点:只有一个Jobtracker,存在单点故障的问题,jobtracker任务过重,内存开销大,上限4000个节点资源分配不合理,把CPU分成slot,mapslot 和reduceslot不能互用于是提出了Yarn(hadoop2.0)Yarn基本就是对Mapreduce1.0的功能进行了拆分:Jobtracker负责的资源管理任务交给Yarn中Resour...
2020-03-19 10:29:25
173
原创 MapReduce概念详解
数据处理能力提升的两种路线:1.单核CPU从单核到双核到四核八核,2分布式并行编程随着 CPU制作工艺达到天花板,现在分布式并行编程有了发展,分布式并行编程就是借助一个集群通过多台机器同时处理大规模数据集。谷歌提出了mapreduce,apache做了开源实现,一个HDFS和Mapreduce合称为MapReduce,谷歌提出之前实际也有分布式并行编程MapReduce优点:每个节点都...
2020-03-17 11:47:53
603
原创 hbase错误: 找不到或无法加载主类 org.apache.hadoop.hbase.util.GetJavaProperty SLF4
ttps://blog.youkuaiyun.com/pycrossover/article/details/102627807
2020-03-13 19:37:53
2521
3
原创 ubuntu14下hive操作
service mysql startmysql -u hadoop -p#mysql中创建create database hive; #保存hive元数据与hive-site.xml中localhost地址对应grant all on . to hive@localhost identified by ‘hive’; #将数据库所有权限给hive用户,hive是hive-site.xml...
2020-03-13 15:49:31
460
原创 structure streaming输入源之Kafka源实现
用生产者程序每0.1s生成一个单词写入kafka一个主题中,spark消费者程序每隔8s对收到的单词词频统计,把结果输出到kafka的另一个主题中#启动kafka,zookeeper终端cd /usr/local/kafkabin/zookeeper-server-start.sh config/zookeeper.properties#新建终端,不要关上一个,kafka终端cd /us...
2020-03-05 20:08:47
299
原创 structure streaming输入源之File源实现
文件放入到给定目录的操作应该具有原子性,即不能长时间在给定目录下打开文件写入内容,而是应该写入到临时文件后移动文件到给定目录下步骤:1.创建程序生成jason格式的file源测试数据2.创建程序对数据进行统计#!/usr/bin/env python3#-*-coding: utf8-*-import osimport shutilimport randomimport tim...
2020-03-05 18:08:06
439
原创 编写Structure streaming程序
步骤:1.导入pyspark模块2.创建SparkSession对象3.创建输入数据源4.定义流计算过程5.启动流计算并输出结果from pyspark.sql import SparkSessionfrom pyspark.sql.functions import splitfrom pyspark.sql.functions import explode#炸成一行一个单词if...
2020-03-05 15:00:29
373
原创 structure streaming
structure steaming在spark streaming上进行了全新架构,持续处理模式支持很快很快,微批处理模式支持毫秒响应,select where groupBy map filter flatMap操作都支持支持sparkSQL,数据抽象是dataframe 和DataSet SparkSQL只能处理静态数据spark streaming是dstreamstructure...
2020-03-04 21:47:40
1493
原创 输出操作,结果保存到本地和输出到MySQL
saveAsTextFiles("")结果写入到MySQLservice mysql startmysql -u hadoop -puse sparkcreate table wordcount(word char(20),count int(4));#得安装python连接MySQL的模块PyMySQLsudo apt-get updatesudo apt-get install...
2020-03-04 20:42:46
244
原创 有转换操作updateByKey
updateByKey操作跨批次维护想统计之前所有的,历史状态不断累加#!/usr/bin/env python3from__future__import print_functionimport sysfrom pyspark import SparkContextfrom pyspark.streaming import StreamingContextif__name__==“...
2020-03-04 20:14:53
317
1
原创 转换操作
DStream转换操作包括无状态转换操作(只统计当前到达批次,不会记录历史记录):map flatMap filter repartition reduce count union countByValue reduceByKey join(k,(v,w)) cogroup transform有状态转换操作(滑动状态转换操作就是有窗口滑动)reduceByKeyAndWindow)()co...
2020-03-04 19:07:22
341
原创 编写流计算程序
#!/usr/bin/env python3from__future__import print_functionimport sysfrom pyspark import SparkContextfrom pyspark.streaming import StreamingContextfrom pyspark.streaming.kafka import KafkaUtilsif_...
2020-03-04 14:47:08
175
原创 spark streaming kafka数据源的准备工作
kafka是个高吞吐量的分布式发布订阅消息系统,可以满足实时处理和批量离线处理,作为信息传递枢纽,kafka把外部数据源和hadoop生态系统里组件交互,直接编kafka就可以把所有外部数据源都交互到hadoop组件里kafka组件kafka集群包含很多服务器,这个服务器就叫brokerTopic:每个消息发送都会发到topic,订阅消息也是从每个消息topic来读,一个topic数据会被...
2020-03-03 19:14:54
124
原创 spark streamingRDD队列流
用streamingContext.queueStream(queueOfRDD)创建基于RDD的Dstream每隔1s创建一个RDD,加到队列里,每隔2s对Dstream进行处理cd 。。。。vim RDDQueueStream.py#!/usr/bin/env python3import timefrom pyspark import SparkContextfrom spark...
2020-03-03 18:09:21
457
原创 spark streaming套接字流流处理-用Socket编程创建数据输入源
服务端代码名字是DataSocket.py 用vim编一下#!/usr/local/env python3import socketserver = socket.socket()server.bind((‘localhost’,9999))#绑定ip和端口server.listen(1)#启动监听while 1:print(“I’m waiting for the connecti...
2020-03-03 15:33:58
870
原创 spark streaming套接字流流处理-用nc程序创建数据输入源
vim NetworkWordCount.py#!/usr/bin/env python3from__future__import print_functionimport sysfrom pyspark import SparkContextfrom pyspark.streaming import StreamingContextif__name__==“main”:if len...
2020-03-03 14:51:19
555
原创 spark独立程序方式创建文件流
cd /usr/local/spark/mycode/streaming/logfilevim FileStreaming.py#!usr/bin/env python3from pyspark import SparkContext,SparkConffrom pyspark.streaming import StreamingContextconf = SparkConf()c...
2020-03-02 17:46:00
417
原创 在pyspark中创建文件流然后wordcount
cd /usr/local/spark/mycodemkdir streamingcd streamingmkdir logfilecd logfile启动pysparkfrom pyspark import SparkContextfrom pyspark.streaming import StreamingContextssc = StreamingContext(sc, 10...
2020-03-02 17:27:12
535
原创 spark streaming流计算
现在主要有三类流计算框架平台商业级的流计算平台 IBM InfoSphere Streams和IBM StreamBase开源流计算框架 Storm twitter在用 和Yahoo! S4公司为支持自身业务开发的流计算框架百度Dstream 淘宝银河流计算平台 facebook Puma流计算更注重时效性数据实时采集工具有hadoop的Flume 和ChukwaSparksteami...
2020-03-02 16:29:55
303
原创 用sqarkSQL往MySQL写入数据
先设置表头,再写内容,内容得通过Row再转换成dataframe,再把内容与表头连接,再插入到MySQL中#!/usr/bin/env python3from pyspark.sql import Rowfrom pyspark.sql.types import *from pyspark import SparkContext,SparkConffrom pyspark.sql im...
2020-03-02 15:59:06
290
原创 linux spark连接MySQL数据库并打印到控制台上
Java数据库连接,(Java Database Connectivity,简称JDBC)是Java语言中用来规范客户端程序如何来访问数据库的应用程序接口jdbcDF = spark.read.format(“jdbc”).option(“driver”,“com.mysql.jdbc.Driver”).option(“url”,“jdbc:mysql://localhost:3306/sp...
2020-03-02 15:23:03
366
原创 将RDD转换为DataFrame,再换回RDD再查询几行看看
sparkContext是针对RDD的读写,后面DataFrame用sparkSession转换先得变成Row,然后创建dataframe就行了如果要查询,通过spark.sql,必须得注册成临时表才行from pyspark.sql import Rowpeople = spark.sparkContext.textFile(“file:///文件目录”).map(lambda x:x....
2020-03-02 01:47:55
167
原创 Spark创建SparkSession,dataframe常用操作
先启动pyspark第一篇博客有from pyspark import SparkContext,SparkConffrom pyspark.sql import SparkSessionspark = SparkSession.builder.config(conf=SparkConf()).getOrCreate()spark.read.text(“people.txt”)#读取文件创...
2020-03-01 21:33:36
915
1
原创 sparkSQL
sparksql前身是shark,shark基本是全抄了hive,问题就是优化啥的,hive人家是mapreduce的进程级并行,我们这spark数据抽象是RDD是线程级并行,所以shark执行优化依赖与hive跟我们方向就错了,而且导致了shark兼容hive时出现了线程安全问题,shark又开发了一套独立维护的打了补丁的hive源码分支,累的不行,所以spark直接新开发了这个sparksql...
2020-03-01 20:32:29
250
原创 spark二次排序,两列数据第一列排,如果第一列相等,看第二列
#!/usr/bin/env python3from operator import gtfrom pyspark import SparkContext, SparkConfclass SecondarySortKey():#参数是k,other,自带了参数self,不写def__init__(self,k):#构造函数self.column1 = k[0]self.column2 ...
2020-03-01 18:26:55
669
转载 python的构造函数
https://www.cnblogs.com/chaoguo1234/p/9351951.htmlPython中的构造函数Python中的构造函数是__init__函数。在Python中,子类如果定义了构造函数,而没有调用父类的,那么Python不会自动调用,也就是说父类的构造函数不会执行。比如有test.py的module文件:复制代码class A:def init(self, ...
2020-03-01 15:50:18
424
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人