
大数据
Baple
多年软件开发经验,擅长java、.net等Web开发和桌面开发及Android开发,熟悉Windows/Linux下的各种服务如Keepalived+Haproxy+Nginx、tomcat/weblogic/zookeeper/memcached /redis、MySql、Oracle等开发部署实施经验,常用技术框架Spring、Struts、Hibernate、MyBatis、Spring boot等,前端熟悉 JQuery、miniui、EasyUI、DataTables插件等。熟悉Git/gitlab版本管理工具使用及搭建。参与过大型互联网项目的搭建开发,目前致力于基于大数据研究与开发
展开
-
大数据系统的Lambda架构
http://www.tuicool.com/articles/uiyYFfNathan Marz的大作Big Data: Principles and best practices of scalable real-time data systems介绍了Labmda Architecture的概念,用于在大数据架构中,如何让real-time与batch job更好地结合起来,以达成对转载 2016-07-06 14:44:37 · 1671 阅读 · 0 评论 -
Hadoop+HBase+ZooKeeper分布式集群环境搭建
一、环境说明集群环境至少需要3个节点(也就是3台服务器设备):1个Master,2个Slave,节点之间局域网连接,可以相互ping通,下面举例说明,配置节点IP分配如下:HostnameIPUserPasswordmaster192.168.59.133hadoop123456sl原创 2017-04-05 15:15:25 · 1548 阅读 · 0 评论 -
[Elasticsearch in Action读书笔记]第一章 Elasticsearch介绍
为什么需要搜索引擎搜索的目的是快速寻找需要的内容而不用浏览整个站点搜索结果应该是有顺序的,相关度越高的结果越应该排在前面需要提供筛选,以优化搜索结果整体的相关性搜索的速度不能太慢由于传统的关系型数据库无法很好地解决这类问题,所以需要引入专门的搜索引擎。Elasticsearch 的用途部署在关系型数据库之上,加快搜索相关的 SQL 查询。或是为 NoSQL原创 2017-08-21 09:37:44 · 1633 阅读 · 0 评论 -
拟合工具箱的几个误差参数说明,SSE,MSE,RMSE,R-square
使用过Matlab的拟合、优化和统计等工具箱的网友,会经常遇到下面几个名词:SSE(和方差、误差平方和):The sum of squares due to errorMSE(均方差、方差):Mean squared errorRMSE(均方根、标准差):Root mean squared errorR-square(确定系数):Coefficient of determina转载 2017-09-26 11:14:39 · 12880 阅读 · 0 评论 -
TF-IDF词项权重计算
一、TF-IDF词项频率:df:term frequency。 term在文档中出现的频率.tf越大,词项越重要.文档频率:tf:document frequecy。有多少文档包含此term,df越大词项越不重要.词项权重计算公式:tf-idf=tf(t,d)*log(N/df(t))11W(t,d):the weight of the转载 2017-09-01 16:22:56 · 3862 阅读 · 0 评论