- 博客(11)
- 收藏
- 关注
原创 归纳下Zookeeper 和 storm
最近做完项目后,发线ivan那块的数据分析比较有意思,所以忍不住看了下zookeeper和storm。之前工作的时候搞apache solr也大概开了下zookeeper。反正也无事,先学习下,毕竟很久没有学新东西。哈哈, 看了之后,觉得还不错,特别归纳下!!
2024-11-14 22:31:24
104
1
原创 数据科学常见模型总结(二)-倾向性得分匹配模型
PSM的核心思想是从未受干预的用户群体中,找到和干预对象一模一样的用户,这样就可以把因果效应归因到干预上。
2024-11-14 22:30:28
3378
原创 数据科学常见模型总结(一)-ABTest 模型
按图索骥,此时我们应该查看平均阅读数这一指标的检验灵敏度:如果灵敏度>3%,意味着可能你的实验可能会有3%的显著提升,只是灵敏度还不够,我们还没检验出来。例如点击率指标,业务往往不关心人均点击率指标,而是总点击/总曝光指标,这一指标的方差无法用传统的计算样本方差的方法来计算,需要采用delta method方法。现在把实验停了,换新的思路?统计功效为 1-beta,反馈的是备注假设成立的概率,一般是 80%,也就是 beta=20%,二类错误允许为 20%,即无法得出有差异的概率是 20%。
2024-11-13 17:51:06
1111
原创 mysql 复制及可扩展性
总结内容来自mysql性能调优1. Replication 常用架构master-slave读写分离master--slave-slave。。。一个master,多个slave,缺点,延时较长。master--master 结构双机热备,其实只有一台机器有用2. 扩展性设计之数据切分
2013-10-24 15:09:53
518
原创 storm运行和搭建
1. 文章参考https://github.com/nathanmarz/storm/wiki/Setting-up-a-Storm-cluster2. zk搭建3. 启动:Nimbus: Run the command "bin/storm nimbus" under supervision on the master machine.Supe
2013-10-15 14:21:54
645
原创 hive 启动和查询
(1) 搭建hadoop参见:http://blog.youkuaiyun.com/jsjwk/article/details/8923999注意启动是到hadoop目录,进行逐个启动:start-dfs.shstart-mapred.sh(2) 使用hive // 获得与 Hive 连接,如果连接已经初始化,则直接返回 publ
2013-10-15 14:14:28
1942
原创 RabbitMQ集群配置
1. 方案我们采用RabbitMQ的Mirroed Queue(http://www.rabbitmq.com/ha.html)方案(Active/Active的方案),首先需要搭建RabbitMQ的集群(http://www.rabbitmq.com/clustering.html)。假如我们有两台机器 IP 分别为 10.10.126.36 (M1)和10.10.126.71(
2013-04-14 23:01:24
6033
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人