- 博客(102)
- 资源 (4)
- 收藏
- 关注
原创 公司管理法宝-流程
流程1. 流程的目的:增效、降本、风控2. 流程的分类:管控类流程 + 专业类流程 2.1 管控类流程:审批流,要尽量缩减 2.2 专业类流程:等同于操作手册、教材,要尽量丰富,但也要简结3. 怎么指定流程: 3.1 三个原则:简单化、专业化、标准化 3.3.1 简单化:不止流程的缩减,而是切割、模块化、组件化 3.3.2 专业化:细节、解释,清晰的执行路径和方式 3.3.3 标准化:杜绝...
2021-03-12 20:08:28
346
原创 Hive兼容底层Json格式文件的方法
底层json文件如何load进hive,用结构化的形式展示,用sql查询呢?其实目前已经有jar包支持了,答案如下:不解释,直接看语句:add jar /opt/cloudera/parcels/CDH/jars/hive-hcatalog-core-1.1.0-cdh5.5.1.jar;create table default.tao_json1(actualRecycle...
2019-05-07 10:10:21
477
转载 矩阵的秩与行列式的几何意义
作者:曾博链接:https://zhuanlan.zhihu.com/p/19609459来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。这里首先讨论一个长期以来困惑工科甚至物理系学生的一个数学问题,即,究竟什么是面积,以及面积的高维推广?1 关于面积:一种映射大家会说,面积,不就是长乘以宽么,其实不然。我们首先明确,这里所讨论的面积,是欧
2017-01-12 17:10:35
1588
转载 数据挖掘算法学习(八)Adaboost算法
Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。Adaboost算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次得到的分类器最后融合起来,作为最后的决策分
2017-01-03 16:13:23
794
转载 统计学习方法笔记 -- 概论
统计学习方法是基于训练数据构建统计模型,从而对数据进行预测和分析。 统计学习分为,监督学习(supervised learning),非监督学习,半监督学习和强化学习(reinforcement learning),其中以监督学习最为常见和重要,所以这里只讨论监督学习统计学习的过程如下, 1. 获取训练数据集合 2. 确定假设空间,即所有可能的模型的集合 3. 确定模型选择
2016-12-28 17:31:38
708
转载 数据仓库-易错点
转自:博客园-liuweiqiang2v最近在搞关于数据分析的项目,做了一点总结。下图是系统的数据流向。容易出现错误的地方。1、数据进入hadoop仓库有四种来源,这四种是最基本的数据,简称ods,original data source,后续 的数据都是有这些组合而来a、日志文件b、http接口c、DB查询d、建表指向最后数据都是以ha
2016-09-08 14:36:58
769
原创 Linux网络NAT模式配置
既要NAT内部各个节点能相互ping通,又能ping通外网,如下设置ifc-eth0文件:vi 编辑/etc/sysconfig/network-scripts/ifcfg-eth0文件DEVICE=eth0TYPE=EthernetONBOOT=yesBOOTPROTO=staticIPADDR=192.168.200.128NETMASK=255.2
2016-05-12 22:17:39
4214
原创 hive bug
1. hive的insert bug 001,如下:insert overwrite table XXX partition(dt='2016-04-09') asselect '' as a1 from YYY; 如此得到的表XXX有一个字段,但是这个字段的值并非空字符串,也就是('’),而是null。但是使用create select 不会出现。这个bug已经再新版本得到
2016-04-09 18:45:48
539
转载 java中Map数据结构详解
Map用于保存具有映射关系的数据,Map里保存着两组数据:key和value,它们都可以使任何引用类型的数据,但key不能重复。所以通过指定的key就可以取出对应的value。Map接口定义了如下常用的方法:1、void clear():删除Map中所以键值对。2、boolean containsKey(Object key):查询Map中是否包含指定key,如果包含则返回true
2015-09-28 11:51:21
11533
1
转载 SolrCloud简介
一.简介SolrCloud是Solr4.0版本以后基于Solr和Zookeeper的分布式搜索方案。SolrCloud是Solr的基于Zookeeper一种部署方式。Solr可以以多种方式部署,例如单机方式,多机Master-Slaver方式。二.特色功能SolrCloud有几个特色功能:集中式的配置信息使用ZK进行集中配置。启动时可以指定把Solr的相关配置文件上传Z
2015-07-01 13:26:37
612
转载 Heron(一)—-storm的一些短板
twitter在使用storm过程中发现了一些storm的弊端,开发Herons相对storm需要提升的几个特性:1)更好的扩展性, 2)更容易调试 3)更高的性能 4)更好管理–可以和其他系统复用资源 storm的短板:1)storm的worker调度策略非常复杂,一台机器上的多个worker由操作系统调度,worker中的每个exec
2015-06-25 18:18:56
832
转载 Solr简介
solr在lucene外边做了一层厚厚的封装,主要是为了简化二次开发,提供了一些成熟的解决方案。solr和solrCoresolr可以对多个core进行综合管理,并接受请求选择特定的一个或者多个core执行相关任务。下面来回答什么是solr的core。core从文件结构的角度来看的话,主要包括一份索引(也可能还包括拼写检查的索引)、一堆配置文件。最主要的配置文件是:solr
2015-06-25 15:24:38
759
转载 JVM参数设置及分析
不管是YGC还是Full GC,GC过程中都会对导致程序运行中中断,正确的选择不同的GC策略,调整JVM、GC的参数,可以极大的减少由于GC工作,而导致的程序运行中断方面的问题,进而适当的提高Java程序的工作效率。但是调整GC是以个极为复杂的过程,由于各个程序具备不同的特点,如:web和GUI程序就有很大区别(Web可以适当的停顿,但GUI停顿是客户无法接受的),而且由于跑在各个机器上的配置不同
2015-06-25 10:20:53
670
转载 JVM优化——CMS
CMS,全称Concurrent Low Pause Collector,是jdk1.4后期版本开始引入的新gc算法,在jdk5和jdk6中得到了进一步改进,它的主要适合场景是对响应时间的重要性需求大于对吞吐量的要求,能够承受垃圾回收线程和应用线程共享处理器资源,并且应用中存在比较多的长生命周期的对象的应用。CMS是用于对tenured generation的回收,也就是年老代的回收,目标是尽
2015-06-25 10:10:11
699
转载 MapReduce的Shuffle过程介绍
MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程?我们都知道MapReduce计算模型一般包括两个重要的阶段:Map是映射,
2015-06-08 11:40:40
858
转载 Hermes:来自腾讯的实时检索分析平台
Hermes:来自腾讯的实时检索分析平台实时检索分析平台(Hermes)是腾讯数据平台部为大数据分析业务提供一套实时的、多维的、交互式的查询、统计、分析系统,为各个产品在大数据的统计分析方面提供完整的解决方案,让万级维度、千亿级数据下的秒级统计分析变为现实。 Hermes实时检索分析场景 1、营销分析 作为
2015-06-03 14:27:55
1714
转载 Lucene实践:全文检索的基本原理
Lucene实践:全文检索的基本原理 一、总论根据http://lucene.apache.org/java/docs/index.html 定义:"Apache Lucene(TM) is a high-performance, full-featured text search engine library written entirely in Java. I
2015-05-29 17:17:21
811
转载 Solr 和 ElasticSearch 对比
实时搜索 elasticsearch vs solroyhk学习笔记什么是ElasticSearch?ElasticSearch是基于rest风格,分布式搜索引擎,非常优秀的lucene库.内置的JSON API提供了一个优雅的+ HTTP平台完美的结合(例:弹性可搜索的ruby gem)。它的简单的、可伸缩的和酷...对比solr首先,让我们澄清问题.solr效率是非
2015-05-06 11:58:22
15794
1
转载 Web高并发解决方案
《手把手让你实现开源企业级web高并发解决方案》(lvs+heartbeat+varnish+nginx+eAccelerator+memcached)原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://freeze.blog.51cto.com/1846439/677348本
2015-03-17 23:17:54
3521
转载 Linux集群 原理
此文凝聚笔者不少心血请尊重笔者劳动,转载请注明出处。http://freeze.blog.51cto.com/随着Internet技术的迅猛发展,网络技术、性能的不断提高,高可伸缩性、高可用性、可管理性、价格有效性的网络服务技术将成为网络服务技术的主导。各种平台下的技术方案应运而生。本文试图以一篇完整的理论+实践性的文字来介绍如何在优秀的开源操作系统Linux下创建低成本、高性能、高可用的服务
2015-03-17 23:00:37
2331
原创 Struts2笔记
Struts2笔记 第一节:概述1. 简介:l Struts2是自webwork框架发展而来,与Struts1无关,只为借助Struts1的名气;l Sturts2所用到的基本技术:动态代理 + 反射 + 过滤器;l Struts2主要是针对jsp/servlet的技术,Hibernate是针对DAO的技术。 2. 注意点:l 使用S
2015-02-12 13:53:17
871
转载 Struts2常用contant标签解释
xml version="1.0" encoding="UTF-8"?>DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts-2.3.dtd">struts> 把它设置
2015-02-02 13:55:52
1573
原创 Upload上传+Image压缩
本文主要是做一下用户头像上传模块的,功能为:图片上传 + 图片压缩。用到了Apache Comments的两个jar包
2015-01-29 12:35:07
1790
转载 页面静态化
静态技术详解 目录一. 什么是静态化1、 纯静态页面2、 静态化3、 伪静态方法(Url静态化)二. 为什么要使用静态化技术4、 为了SEO 5、 静态化让给我们带来用户6、 静态化让我们有证可查7、 让服务器资源最大化三. 静态化的劣势四. 适当的选择是有必要的五. 静态化实例
2015-01-28 16:44:15
1360
原创 中文乱码问题的解决
java的中文乱码问题,即javaEE项目编码统一问题。从页面、server、DB三个环节入手,彻底统一编码,消除乱码。还总结了一套全面统一编码的流程。
2015-01-25 14:38:31
1140
原创 DWR笔记
DWR是一个Ajax开源框架,能够模拟实现前端JS代码直接调用后台java方法的效果,还能传参,接收返回值。原理:是利用反射机制实现的。用法要注意:调用,传参,返回值。返回值又分为常用返回值 + 自定义类的返回对象 + 集合容器的返回。要点:概念 + 原理(反射) + 配置安装 + 用法 + 注意点
2015-01-24 12:46:57
1248
转载 Oracle性能优化
Oracle优化,包括:内存分配 + 调整Library Cache + 调整数据字典高速缓存 + 调整数据库缓冲区高速缓存 + 调整I/O + 调整竞争。性能优化主要分为两部分:一、数据库管理员通过对系统参数的调整达到优化的目的;二、开发人员通过对应用程序的优化达到调整的目的。此为系统参数的调整,不涉及应用程序的优化。对系统参数的调整,可以分为以下几个部分
2015-01-19 23:36:21
786
转载 PL/SQL快捷键 设置
PL/SQL 快捷键 1 修改Code assistant快捷键 tools->preferences->User Interface -> Key Configuration -> tools/ code assistant 改为自己想要的快捷键 tools -> code assistant 可以查看帮助的快捷键 2 修改 Sql 语句大小写 默认 pl/
2015-01-15 10:28:56
736
转载 tomcat的web.xml相关配置
Web.xml常用元素 定义了WEB应用的名字 声明WEB应用的描述信息 context-param元素声明应用范围内的初始化参数。 过滤器元素将一个名字与一个实现javax.servlet.Filter接口的类相关联。 一旦命名了一个过滤器,就要利用filter-mapping元素把它与一个或多个servlet或JSP页面相关联。 servlet API
2015-01-12 09:06:50
741
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人