- 博客(26)
- 资源 (1)
- 收藏
- 关注
原创 Kafka编程实践
Kafka 编程实践搭建了一个Kafka集群之后,看怎么用Java程序编写去利用它。参考Kafka文档(http://kafka.apache.org/documentation/),Kafka可以用在三个场景:Messaging SystemStorage SystemStream Processing我用Java实现了一个“生产者-消费者”的
2018-02-02 10:33:16
1492
原创 Python数据库与DataFrame
Python数据库与DataFrame安装必须的包:pip install sqlalchemypip install pandaspip install pymysql用交互式 python:>>> import pandas as pd>>> from sqlalchemy import create_engine>>>>>> db_info = {'us
2018-02-01 19:12:49
684
原创 Python 读写数据库(MySQLDB)
用MySQLDB需要先安装:yum install MySQL-python.x86_64updateimport datetimeimport MySQLdbconn= MySQLdb.connect( host='myservicedatabase.host.name.or.ip', port = 330
2018-02-01 19:05:12
680
原创 Kafka 单机部署
Kafka可以当作队列使用,这里记录一下单机环境下,简单的部署过程。准备环境下载wget http://mirrors.hust.edu.cn/apache/kafka/1.0.0/kafka_2.11-1.0.0.tgz解压到/opt/apache/home/kafka_2.11-1.0.0设置环境变量# Kafka
2018-01-30 09:59:22
787
原创 Kafka集群手动配置
Kafka是一个分布式的、可分区的、可复制的消息系统。它专为分布式高吞吐量系统而设计。与其他消息传递系统相比,Kafka具有更好的吞吐量,内置分区,复制和固有的容错能力,这使得它非常适合大规模消息处理应用程序。在大数据的语境下,Kafka是流式数据处理、集群消息队列的不二之选。 Kafka将消息以topic为单位进行归纳。producers向Kafka的指定topic发布消息,cons
2018-01-30 00:10:50
1700
原创 Zookeeper 分布式手动部署安装
在很多场合下zookeeper是必不可少的,比如hbase环境、kafka等。延续上次的安装套路(详参考hadoop-cdh5 分布式环境手工安装步骤),又手工部署了一下zookeeper。解压:zookeeper-3.4.5-cdh5.3.2环境变量:vi /etc/profile.d/zookeeper.sh#!/bin/bash
2018-01-29 23:49:21
485
原创 hadoop-cdh5 分布式环境手工安装步骤
用cloudera的CM安装cdh5是一件轻松的事情。但如果有追究本源的习惯,还是喜欢自己折腾一番手工部署。自己部署也可以更好的控制一些环境。比如说,为了可以灵活升级,一般我建议配置文件和执行模块分离,日志分离等等,这些都可以用环境变量来控制。我部署的套路是:运行数据、日志与运行程序配置分离运行程序部署在/opt目录下环境变量放在/etc/p
2018-01-19 21:58:00
418
原创 逻辑回归模型的评估方法
从Weka工具跑回归模型可以看到评估的输出,怎么解读自行脑补过,大概明白了些。翠花,上截图!我们普通人最直接的理解是正确率吧。应该对应到Correctly Classified Instances比例(正确分类了的实例)。 在上图中,总实例数1000,正确分类了963,*正确率*96.3% 。TP、FP、FN、TN 但一两个数往往说明不了问题,专业人士们,会看真的、被分对、真的、被分错、假的、被
2016-07-14 18:09:35
20679
原创 Java集成Weka做线性回归的例子
线性回归在数据挖掘领域应也是非常常见,即根据现有的数据集(行向量组成的矩阵),(训练)模拟出一个合适的规律(函数),来推测任何新给出的数据组合(向量)应该得到的值。具体的描述可以参见各种博客,怎么推导的看来看去一知半解,但总而言之结果也简单,就是计算得到一个“适当”的多元线性函数Y=a0+a1*x1+a2*x2+a3*x3+…+ak*xk。
2016-07-14 15:42:39
7517
1
原创 Weka生成和加载PMML文件
网络上太多示例展示了Weka怎么样调用数据分类算法,但想想我如何针对一个训练好的分类模型进行重用呢。所以必须要“导出来”。导出模型,一个标准的方式就是用PMML了。
2016-07-13 19:22:54
3035
1
原创 Java集成Weka做逻辑回归(Logistic Regression)(续)
从网上找样本数据太不好找了,尤其是想看看多分类的那种数据;而且数据量都偏小,不好玩。得,还是自己造数据,当然规则自己拟。自己造数据,生成arff文件。
2016-07-13 10:14:20
2902
原创 Java集成Weka做逻辑回归(Logistic Regression)
Java集成Weka做逻辑回归(Logistic Regression)从搜索引擎脑补可以得知,“逻辑回归”是一种分类器,通过样本集合的训练之后,可以简单做二元(或多元)分类。看了一下有用Weka做的,来来,咱也试一下。
2016-07-13 00:07:03
9414
转载 架构与敏捷:不得不说的故事
这篇文章由IEEE Software 杂志首发,并由InfoQ & IEEE Computer Society转载于此.敏捷开发离不开架构?架构离不开敏捷开发?难道得出这些问题答案非要经由一场讽刺漫画般、基于根深蒂固价值观的针锋相对,而不能在二者清晰定义之上、基于开放的、推理式的对话?也许,更通俗地描述问题是回答它的良好开始:除了专注于敏捷方法之外,我们还需要广泛考虑各种开发过程?而且
2014-06-28 23:24:43
710
原创 如何敏捷架构
To my understanding scrum forbids upfront design. And basically is about "let's develop with what we know" inside this framework. Again to my understanding, architecture is about creating a fram
2014-06-22 11:34:59
695
原创 HADOOP之旅——部署集群
好吧,把上个月部署hadoop的步骤记一下。因为之前写的文档是英文的,也就不翻译了。1. Preparation7 nodes: 1 name node, 6 data nodesInstall OS (Ubuntu 12.04 64bits)Install all nodes. Modify the default /bin/sh -> bashInstall
2013-05-09 13:05:47
612
原创 Gluster 部署上的 unknown error 107 问题
今天拿了两台旧机器(PentiumD)想搭一个分布式文件系统来玩玩,看看和HDFS对比有哪些使用上的不同。安装应该是很容易:操作系统Fedora17 32位,留了大片的磁盘空间不做分区(51GBout of 73GB)。然后用yum安装;然后发现需要将glusterd 这个daemon启动……好了,到了peer probe。几个钟都卡在unknown error
2013-05-08 18:15:05
3738
原创 程序启动的Splash screen与跳转
Splash窗口可以使用一个ImageView,加载一张图片“welcome.jpg”即可(jpg也可以哦)。
2011-03-20 12:39:00
1264
原创 Hello to Android
<br />这星期开始学Android,过程简直是九曲黄河。<br /> <br />首先是下不到Android SDK,网站被屏蔽,需要翻墙。<br />后来装上后,无法下载更新Android SDK tool revision 10,发现将原来的tools 目录干掉(改名),然后将下载解压好的目录temp/下的一个目录拿来替换tools目录,重启SDK Manager即可。<br />启动模拟器,用了缺省的WVGA800,结果在我电脑上卡壳不能响应,后来试了用WVGA400可以了。<br />搞好了Ec
2011-03-19 19:19:00
3915
原创 SSH 隧道的建立
中转机# cat /usr/bin/dev-android.sh #!/bin/shwhile [ 1 ];do ssh -gN -L 80:developer.android.com:80 root@69.147.178.38done
2010-12-01 19:31:00
747
原创 Linux上NFS 配置
因为开发分布式系统,为调试方便,老是需要将代码拷贝到N台机器的相同目录下。已经设置了ssh公钥使得免密码直接登录,加上脚本,使得可以一键运行常用的一系列操作。忽而让我觉得还是配置一下NFS吧,这样还更方便。搞定了,把步骤记下来。首先,配置NFS服务在服务端上(我的工作站)安装# apt-get install nfs-kernel-server nfs-common portmap希望使用已经定义的匿名用户,所以为之创建了用户和组,指定uid为1099,gid为999:sudo groupadd -g999
2010-11-23 11:43:00
453
原创 数据库事物隔离级别 (藏)
http://blog.youkuaiyun.com/willfcareer/archive/2010/08/18/5820821.aspx
2010-09-17 15:23:00
347
原创 An example of using STL multimap
下面这段忘记从哪里Copy的了。 1: #include 2: #include 3: #include string> 4: using namespace std; 5: int main() 6: { 7: multimapstring, string> names; 8: stri
2010-05-19 11:48:00
639
原创 使用 sed 修改配置文件
最近写一些Debian包安装脚本。由于希望安装时能提示用户输入一些初始配置参数,用sed倒来倒去,终于弄出来。 sed功能强大,但参数繁多,一天不用就忘。还是找个地方记下来,一来给大家分享,二来这里比记在本子上强。 一个典型的例子是,在配置文件中修改一个子网IP。在这个配置文件中,本人定义的子网IP格式是 网段IP加掩码位数:如 192.168.10.4/26 setu
2010-05-11 10:12:00
5379
原创 微软STL,hash_map 的效率问题
前天发现一个微软 hash_map的效率问题。一个对的六百万次查找,用了接近一分钟。本来不觉得怎么的,可是相似的代码,在ubuntu上面,执行才不到一秒。这个问题就大了。 #include hash_map.h>#include stdio.h>#include sys/time.h>using namespace std;typedef hash_mapunsigned int, int
2008-04-14 12:34:00
1819
1
原创 飞信协议-邀请与通话
最近一个月摸一摸飞信协议。我也下了装了wincap和ethereal抓包,参考大虾的研究,一边摸索写代码。 开始,一切都挺顺利的: 登陆SSI服务器成功了 登陆ProxyServer也验证能通过了 能得到好友列表了 直到 被邀请,然后接收信息,回复同样的信息,这里卡住! 现象是,用户A发送会话邀请,程序B接受邀请,用户
2008-03-25 15:56:00
1213
8
原创 IM还能怎么玩?
也许是看了QQ眼红,也许是移动财大气粗,或者也许,是看到IM市场这块奶酪够大,将来不可限量?反正移动开始了飞信这个项目三年了,准备利用自身的用户量优势而有些作为。说起IM通信,早在2004年,我在原来公司搞SP的时候(那个时候SP如日中天),经理就想通过搞个IM来增加业务的粘性。 当时定名为TQ,不管“T”字有多少种含义,至少,当时大家的想法是,第一阶段,先给公司内部客服使用,通过平台端口号向
2008-03-10 12:56:00
732
P2P持久存储研究
2008-01-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人