云梦泽之曦-优快云博客

原创图片自动标注工具调研

AIDA：https://imageannotation.nds.ox.ac.uk:8443/AIDA/#/，网页标注，支持圆圈和曲线标注，可导出json文件Annotorious：https://annotorious.github.io/demos.html，网页标注，支持矩形和多边形，未见导出文件DataTurks：有图像分类标签，标注类型多样，但操作不是特别不方便labelMe...

2018-09-13 20:38:56 2702 1

原创 keras 迁移学习实验结果记录

keras 迁移学习不同网络实验对比网络 tl 准确率% ft 准确率% 参数 epoch,batch_size ft_layer 数据 train/val/test xception 81.83 82.35 epoch=10,batch_size...

2018-09-10 23:25:51 1334

转载 anacoda原理

转载自：https://www.jianshu.com/p/eaee1fadc1e9

2018-09-03 18:03:23 346

原创 spring boot一般项目创建步骤笔记

一、新建项目 1.构建springboot项目，new project 选spring initializer，按照选择一步步来，最后确认maven设置。 2.编写一个hello类，用@RestController注解类，编写一个hello方法，用@RequestMapping注解该方法对应的路由映射信息 3.点击run，打开浏览器，输入localhost:8080/he...

2018-08-31 09:58:20 300

参考：https://zhidao.baidu.com/question/346457264.htmljsp发展经历了两个模型时代，jsp模型一时代是把代码都写在jsp页面上，用户访问jsp页面时，jsp页面来对数据库进行操作并返回值到jsp页面，这样第一不好维护，第二安全性不高，第三代码结构不清晰，第四重用性不高。于是就有了jsp模型二时代，人们将所有的页面请求交给一个servlet控制器来接受...

2018-07-02 17:03:26 1378

转载 lombok好的文章

参考：http://www.mamicode.com/info-detail-2158036.html

2018-07-02 16:26:16 211

原创 spring @bean注解

参考：https://www.cnblogs.com/bossen/p/5824067.html注解分为两类：一类作用是从Ioc中取bean；如：autowire,resource一类作用是将类注册到bean；如:component,Controller 等。@bean属于第二类，用于注解一个方法，指示该方法返回一个bean并注册到Ioc中。...

2018-07-02 14:38:39 761

原创 react+nodejs前后端学习笔记

参考别人的简单笔记应用demo思考：https://www.cnblogs.com/tianheila/p/5176556.html思想：1.前端写页面动作逻辑，请求数据采用ajax请求回调。ajax请求形式：$.ajax({ url:"url", tyoe:"post", dataType:"json", data:JSON.stringify(),//反序列化 c...

2018-06-27 13:01:34 1963

原创 react demo:人员表实现笔记

1.功能概览人员基本信息列表展示人员录入及删除人员详细信息查看人员信息编辑根据人员身份筛选根据人员属性排序根据人员姓名、年龄、身份、性别关键字进行搜索2.划分UI component界面模块划分如下：组件名称和介绍：ManageSystem 最外层容器，容纳整个应用StaffHeader 负责接受用户检索，筛选，排序操作StaffItem 负责展示一条人员基本信息StaffPan...

2018-06-24 20:06:48 452

原创 Hbase基础架构

Hmaster协调多个regionserver将region分配给regionserver，协调regionserver的负载并维护集群的状态维护表和region的元数据regionserverzookeeper是HA的解决方案Hmaster并不参与数据读写操作，读写时需要知道zookeeper地址提供regionserver状态信息性能非常好Hbase读写流程：...

2018-05-22 11:26:58 183

原创学习大数据

会用不考虑原理实现会想会玩HBASE是啥，由哪些模块构成HBASE优缺点及应用changj与常用关系数据库对比如何操作hbase（shell,java api）高级特性：过滤器，协处理器，优化策略hbase相关工具的使用（phoenix和sqoop）对象存储服务实战：需求分析=>功能点梳理=>技术选型=>设计方案讨论=>选择方案代码实现熟悉java编程基础，Linux是否...

2018-05-21 17:03:53 172

原创 spark sql总结

用户场景加载数据dataframe vs sqlschema

2018-05-21 16:28:45 216

原创用户行为日志分析

用户行为日志概述概念定义：用户每次访问网站时，所有的行为数据：访问，浏览，搜索，点击。。。用户行为轨迹，流量日志。。。比如：点课程，有记录，点html css，时间，IP，pc端?对大数据感兴趣为什么1.可以通过日志分析得到网站访问量2.网站粘性3.相应推荐（搜索洗衣机，根据点击日志，能够分析出来最近对家用电器感兴趣，给你打标签，为了促进新的订单产生）生成渠道：nginx,ajax(鼠标悬停以及页...

2018-05-21 16:23:02 6950

原创 spark 愿景

代码量和可读性mapreduce 非常多rdd 精简很多但不太容易看懂sql dataframe 更易懂、更简洁读写：可以使用自定义数据源实现ETL案例：将网站数据查询后保存到hive中写更少代码selectjoinaggregationfilterschmea推导抽取：可将json文件对应一个表格关系型数据库创建名称、类型半结构化数据：可以推断出字段类型大数据比较脏的，作一定的清理能够合并不同...

2018-05-21 13:39:41 197

原创外部数据源

产生背景概述目标操作parquet文件数据操作hive数据操作mysql数据统一产生背景每一个spark都是以加载数据开始，经过一系列处理，最后存储到其他地方；不同格式，不同压缩格式，不同存储接口，用户肯定希望从不同数据源收集数据方便、快速从不同数据源（）经过混合处理（json直接和parqent jion）再将结果以特定格式写回到指定系统上去sparksql 1.2====》外部数据源api问题...

2018-05-21 12:23:37 1111

原创 dataframe

谷歌 dataframe趋势图dataframe不是spark sql提出的rdd api 提供通用语言api 函数式编程R/pandas 单机处理以列的形式构成的分布式数据集

2018-05-21 10:13:37 235

原创 spark sql概述

如何发展背景那个？演化框架？为什么需要sql?1)事实上的标准，关系型数据库存在那么多年。因为原来熟悉数据库dba，关系数据库肯定存储不了那么多数据，这些人更愿意使用sql方式；如果mapreduce或spark对于原来的dba门槛太高了;如果能够直接搬到大数据处理框架中来就很好2）易学易用，花一两天时间就可以掌握yongfa3）应用面非常广举例：对文本文件进行统计分析id name age c...

2018-05-20 20:07:58 269

原创 hdfs优缺点

优点：高容错批处理适合大数据处理构建在廉价机器上缺点：低延迟的数据访问（借助于Hbase）不适合小文件存储（元数据过多，空间浪费）

2018-05-19 15:36:05 399

原创 hdfs shell常用操作

hadoop fs -ls /hadoop fs -mkdir /test/hadoop fs -mkdir -p /a/bhadoop fs -ls -R /hadoop fs -put hdfs.cmd(local) /test/hadoop fs -cat /test/hdfs.cmdhadoop fs -text /test/hdfs.cmdhadoop fs -cpoyFromLocal...

2018-05-19 15:33:49 306

原创 imooc hdfs启停

格式化hdfs注意该操作只是在第一次时执行1.bin/hdfs namenode -formatls app/tmp/dfs/namenode2.启动hdfsbin/start-dfs.shstart namenode at hadoop001...start datanode at localhost...3.hadoop文件夹 bin/ 客户端脚本sbin/ 服务器端脚本etc/ 配置文件4....

2018-05-19 15:23:17 172

原创 imooc hdfs核心配置文件

cd app/hadoop-2.6.0-cdh5.7.0/etc/hadoop/hadoop-env.sh{ export JAVA_HOME...}core-site.xml{ fs.defaultFS默认文件系统名称 9000是1.0版本 2.0改为8020 host可以改为hadoop001 core-default:官网 hadoop.tmp.di...

2018-05-19 14:52:36 207

原创 imooc 机器参数设置

修改机器名：hostname hadoop001/etc/sysconfig/networknetwork=yeshostname=hadoop001ip hadoop001ootb已经配好设置ip和hostname映射关系/etc/hostsip hadoop001设置ssh免密码登陆（）本步骤可以省略，但是后面重启hdoop进程时需要手动输入密码集群个节点通过免密码登陆ssh-keygen -...

2018-05-19 14:43:24 132

原创 hadoop安装

下载hadoop2.6.0-cdh5.7.0wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz本地目录结构/home/hadoopsoftware存放的软件包app安装路径data测试数据source源码目录，spark学习思路---》查看hadoop官方文档安装jdkwget tar.gz解压到app目...

2018-05-19 14:37:26 151

原创 imooc HDFS副本机制

HDFS支持传统层级目录结构应用程序可以创建指定副本系数，也可以后期修改。文件名+副本系数+blockids[]

2018-05-19 14:23:39 356

原创 imooc HDFS架构

官网：1master Nsalve架构HDFS/YARN/HBASEmaster:管理namespace以及client访问文件系统，namespace到底是什么？打开、关闭、重命名文件，目录。决定块存放在哪个datanode上，文件系统操作datanode：每个节点1个，负责读写请求，block创建，删除，副本操作，block操作。内在机制：一个文件被拆分成多个block，按什么规则拆分呢？1...

2018-05-19 14:13:14 131

原创 imooc HDFS简介

hdfs简介历史源自gfs设计目标非常巨大的分布式文件系统，简单加机器运行在普通廉价硬件上易扩展，为用户提供性能不错的文件服务

2018-05-19 13:56:14 174

原创 hadoop概述

什么是Hadoo?一个分布式系统基础架构，用户可以在不了解分布式底层细节的帆帆发，开发分布式程序，充分利用集群的硬件资源。官网：http://${project-name}.apache.orghttp://hadoop.apache.org模块：hadoop common ：提供其他包辅助功能hadoop distrbuted file system：存储hadoop yarn:硬件资源管理和作...

2018-05-19 13:38:22 382

原创 spark_streaming授课习惯和建议

1.笔记优快云博客2.官网和 github examples3.分析日志，多思考，把代码码一遍

2018-05-16 10:22:09 116

原创 AVL树的左单旋、右单旋、左右旋、右左旋

下面是情景剧，有三个角色，分别是root，pivot,和底节点。图片引自：https://blog.youkuaiyun.com/u012361418/article/details/46535293按照这三个节点从上到下节点的顺序，可以分为四种情况：分别称作左左型、右右型、左右型、右左型；1.左左型（pivot是根节点的左节点，底节点是pivot的左节点）这个时候我们把要进行的动作成为右单旋，因为似乎是顺时...

2018-03-23 20:16:56 2986

原创 hash冲突解决方法总结

hash冲突解决办法 -------------------主要有三种开放地址法链地址法再哈希法附加：公共溢出区法1.开放地址法思想就是，按照一定策略，重新在数组中找位置，直到找到空位为止；（注：所有元素都在数组中）细分为三种策略： 1.线性探查策略探查序列为1,2,3... 2.平方探查策略探查序列为...

2018-03-19 19:09:42 335

原创 Linux逻辑地址到物理地址转换

参考《边干边学---LINUX内核指导》p179页；逻辑地址到物理地址转换分为两阶段：1）段机制：逻辑地址-------->线性地址2）页机制：线性地址-------->物理地址先看段机制：逻辑地址结构：TI部分：决定引用全局描述符表还是局部描述符表，GDT/LDT；特权级：决定当前进程访问相应段的权限；索引：确定GDT/LDT中唯一段描述符；该段描述符包含：段基地址，段最大偏移，段存...

2018-03-16 16:12:53 992

转载 amazon snowball存储不止一种方式

摘自：http://www.testlab.com.cn/Index/article/id/1103.html亚马逊提供一种新的存储服务，融合了O2O理念，使得O2O起到双关的效果。该服务名叫snowball,简单的说，导入/导出（Import/Export）服务是利用直接寄送（装有大量数据的）硬盘到/从AWS，利用Amazon的高速内部网络（而不是通过互联网）将数据更快、更低成本的传输进

2017-05-16 23:26:14 427

qq_32720539的博客