hanphy-优快云博客

原创 Kafka编程实践

Kafka 编程实践搭建了一个Kafka集群之后，看怎么用Java程序编写去利用它。参考Kafka文档（http://kafka.apache.org/documentation/），Kafka可以用在三个场景：Messaging SystemStorage SystemStream Processing我用Java实现了一个“生产者-消费者”的

2018-02-02 10:33:16 1529

原创 Python数据库与DataFrame

Python数据库与DataFrame安装必须的包：pip install sqlalchemypip install pandaspip install pymysql用交互式 python：>>> import pandas as pd>>> from sqlalchemy import create_engine>>>>>> db_info = {'us

2018-02-01 19:12:49 707

原创 Python 读写数据库（MySQLDB）

用MySQLDB需要先安装：yum install MySQL-python.x86_64updateimport datetimeimport MySQLdbconn= MySQLdb.connect( host='myservicedatabase.host.name.or.ip', port = 330

2018-02-01 19:05:12 711

原创 Kafka 单机部署

Kafka可以当作队列使用，这里记录一下单机环境下，简单的部署过程。准备环境下载wget http://mirrors.hust.edu.cn/apache/kafka/1.0.0/kafka_2.11-1.0.0.tgz解压到/opt/apache/home/kafka_2.11-1.0.0设置环境变量# Kafka

2018-01-30 09:59:22 848

原创 Kafka集群手动配置

Kafka是一个分布式的、可分区的、可复制的消息系统。它专为分布式高吞吐量系统而设计。与其他消息传递系统相比，Kafka具有更好的吞吐量，内置分区，复制和固有的容错能力，这使得它非常适合大规模消息处理应用程序。在大数据的语境下，Kafka是流式数据处理、集群消息队列的不二之选。 Kafka将消息以topic为单位进行归纳。producers向Kafka的指定topic发布消息，cons

2018-01-30 00:10:50 1732

原创 Zookeeper 分布式手动部署安装

在很多场合下zookeeper是必不可少的，比如hbase环境、kafka等。延续上次的安装套路（详参考hadoop-cdh5 分布式环境手工安装步骤），又手工部署了一下zookeeper。解压：zookeeper-3.4.5-cdh5.3.2环境变量：vi /etc/profile.d/zookeeper.sh#!/bin/bash

2018-01-29 23:49:21 514

原创 hadoop-cdh5 分布式环境手工安装步骤

用cloudera的CM安装cdh5是一件轻松的事情。但如果有追究本源的习惯，还是喜欢自己折腾一番手工部署。自己部署也可以更好的控制一些环境。比如说，为了可以灵活升级，一般我建议配置文件和执行模块分离，日志分离等等，这些都可以用环境变量来控制。我部署的套路是：运行数据、日志与运行程序配置分离运行程序部署在/opt目录下环境变量放在/etc/p

2018-01-19 21:58:00 443

原创逻辑回归模型的评估方法

从Weka工具跑回归模型可以看到评估的输出，怎么解读自行脑补过，大概明白了些。翠花，上截图！我们普通人最直接的理解是正确率吧。应该对应到Correctly Classified Instances比例（正确分类了的实例）。在上图中，总实例数1000，正确分类了963，*正确率*96.3% 。TP、FP、FN、TN 但一两个数往往说明不了问题，专业人士们，会看真的、被分对、真的、被分错、假的、被

2016-07-14 18:09:35 20806

原创 Java集成Weka做线性回归的例子

线性回归在数据挖掘领域应也是非常常见，即根据现有的数据集（行向量组成的矩阵），（训练）模拟出一个合适的规律（函数），来推测任何新给出的数据组合（向量）应该得到的值。具体的描述可以参见各种博客，怎么推导的看来看去一知半解，但总而言之结果也简单，就是计算得到一个“适当”的多元线性函数Y=a0+a1*x1+a2*x2+a3*x3+…+ak*xk。

2016-07-14 15:42:39 7576 1

原创 Weka生成和加载PMML文件

网络上太多示例展示了Weka怎么样调用数据分类算法，但想想我如何针对一个训练好的分类模型进行重用呢。所以必须要“导出来”。导出模型，一个标准的方式就是用PMML了。

2016-07-13 19:22:54 3112 1

原创 Java集成Weka做逻辑回归（Logistic Regression）（续）

从网上找样本数据太不好找了，尤其是想看看多分类的那种数据；而且数据量都偏小，不好玩。得，还是自己造数据，当然规则自己拟。自己造数据，生成arff文件。

2016-07-13 10:14:20 2952

原创 Java集成Weka做逻辑回归（Logistic Regression）

Java集成Weka做逻辑回归（Logistic Regression）从搜索引擎脑补可以得知，“逻辑回归”是一种分类器，通过样本集合的训练之后，可以简单做二元（或多元）分类。看了一下有用Weka做的，来来，咱也试一下。

2016-07-13 00:07:03 9482

转载架构与敏捷：不得不说的故事

这篇文章由IEEE Software 杂志首发，并由InfoQ & IEEE Computer Society转载于此.敏捷开发离不开架构？架构离不开敏捷开发？难道得出这些问题答案非要经由一场讽刺漫画般、基于根深蒂固价值观的针锋相对，而不能在二者清晰定义之上、基于开放的、推理式的对话？也许，更通俗地描述问题是回答它的良好开始：除了专注于敏捷方法之外，我们还需要广泛考虑各种开发过程？而且

2014-06-28 23:24:43 737

原创如何敏捷架构

To my understanding scrum forbids upfront design. And basically is about "let's develop with what we know" inside this framework. Again to my understanding, architecture is about creating a fram

2014-06-22 11:34:59 722

原创 HADOOP之旅——部署集群

好吧，把上个月部署hadoop的步骤记一下。因为之前写的文档是英文的，也就不翻译了。1. Preparation7 nodes: 1 name node, 6 data nodesInstall OS (Ubuntu 12.04 64bits)Install all nodes. Modify the default /bin/sh -> bashInstall

2013-05-09 13:05:47 642

原创 Gluster 部署上的 unknown error 107 问题

今天拿了两台旧机器（PentiumD）想搭一个分布式文件系统来玩玩，看看和HDFS对比有哪些使用上的不同。安装应该是很容易：操作系统Fedora17 32位，留了大片的磁盘空间不做分区（51GBout of 73GB）。然后用yum安装；然后发现需要将glusterd 这个daemon启动……好了，到了peer probe。几个钟都卡在unknown error

2013-05-08 18:15:05 3823

原创程序启动的Splash screen与跳转

Splash窗口可以使用一个ImageView，加载一张图片“welcome.jpg”即可（jpg也可以哦）。

2011-03-20 12:39:00 1301

这星期开始学Android，过程简直是九曲黄河。 首先是下不到Android SDK，网站被屏蔽，需要翻墙。 后来装上后，无法下载更新Android SDK tool revision 10，发现将原来的tools 目录干掉（改名），然后将下载解压好的目录temp/下的一个目录拿来替换tools目录，重启SDK Manager即可。 启动模拟器，用了缺省的WVGA800，结果在我电脑上卡壳不能响应，后来试了用WVGA400可以了。 搞好了Ec

2011-03-19 19:19:00 3940

原创 SSH 隧道的建立

中转机# cat /usr/bin/dev-android.sh #!/bin/shwhile [ 1 ];do ssh -gN -L 80:developer.android.com:80 root@69.147.178.38done

2010-12-01 19:31:00 791

原创 Linux上NFS 配置

因为开发分布式系统，为调试方便，老是需要将代码拷贝到N台机器的相同目录下。已经设置了ssh公钥使得免密码直接登录，加上脚本，使得可以一键运行常用的一系列操作。忽而让我觉得还是配置一下NFS吧，这样还更方便。搞定了，把步骤记下来。首先，配置NFS服务在服务端上（我的工作站）安装# apt-get install nfs-kernel-server nfs-common portmap希望使用已经定义的匿名用户，所以为之创建了用户和组，指定uid为1099，gid为999：sudo groupadd -g999

2010-11-23 11:43:00 482

原创数据库事物隔离级别 (藏)

http://blog.youkuaiyun.com/willfcareer/archive/2010/08/18/5820821.aspx

2010-09-17 15:23:00 370

原创 An example of using STL multimap

下面这段忘记从哪里Copy的了。 1: #include 2: #include 3: #include string> 4: using namespace std; 5: int main() 6: { 7: multimapstring, string> names; 8: stri

2010-05-19 11:48:00 659

原创使用 sed 修改配置文件

最近写一些Debian包安装脚本。由于希望安装时能提示用户输入一些初始配置参数，用sed倒来倒去，终于弄出来。 sed功能强大，但参数繁多，一天不用就忘。还是找个地方记下来，一来给大家分享，二来这里比记在本子上强。一个典型的例子是，在配置文件中修改一个子网IP。在这个配置文件中，本人定义的子网IP格式是网段IP加掩码位数：如 192.168.10.4/26 setu

2010-05-11 10:12:00 5428

原创微软STL，hash_map 的效率问题

前天发现一个微软 hash_map的效率问题。一个对的六百万次查找，用了接近一分钟。本来不觉得怎么的，可是相似的代码，在ubuntu上面，执行才不到一秒。这个问题就大了。 #include hash_map.h>#include stdio.h>#include sys/time.h>using namespace std;typedef hash_mapunsigned int, int

2008-04-14 12:34:00 1854 1

原创飞信协议-邀请与通话

最近一个月摸一摸飞信协议。我也下了装了wincap和ethereal抓包，参考大虾的研究，一边摸索写代码。开始，一切都挺顺利的：登陆SSI服务器成功了登陆ProxyServer也验证能通过了能得到好友列表了直到被邀请，然后接收信息，回复同样的信息，这里卡住！现象是，用户A发送会话邀请，程序B接受邀请，用户

2008-03-25 15:56:00 1249 8

原创 IM还能怎么玩？

也许是看了QQ眼红，也许是移动财大气粗，或者也许，是看到IM市场这块奶酪够大，将来不可限量？反正移动开始了飞信这个项目三年了，准备利用自身的用户量优势而有些作为。说起IM通信，早在2004年，我在原来公司搞SP的时候（那个时候SP如日中天），经理就想通过搞个IM来增加业务的粘性。当时定名为TQ，不管“T”字有多少种含义，至少，当时大家的想法是，第一阶段，先给公司内部客服使用，通过平台端口号向

2008-03-10 12:56:00 771

P2P持久存储研究

摘要: P2P(peer-to-peer)的组织模式已经成为新一代互联网应用的重要形式,它为应用带来了更好的扩展性、容错性和高性能.P2P存储系统一直是研究界所关注的热点,被认为是P2P最具前途的应用之一.数据的持久存储是制约P2P存储系统发展的关键问题,也是其研究的难点.综述了P2P存储系统及数据持久存储相关技术的研究现状.首先概述了P2P存储系统的基本技术组成及其在不同应用环境中的优势,并介绍了数据冗余、数据分发、错误检测和冗余数据维护等多种持久存储的基本技术.在一个P2P存储系统研究框架下,介绍了目前知名的P2P存储系统及其使用的持久存储技术.对各种技术进行了详细综述和对比讨论,分析了各种技术的适应环境及优劣,指出了存在的问题和未来研究的方向.

2008-01-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

hanphy的专栏