
数据相关
文章平均质量分 56
baiyangfu
富贵有定数,学问则无定数。求一分,便得一分。一个大牛说的,共勉
展开
-
linkedin 数据科学实习的5个经验总结
1. Spend time cleaning your data. Data is your starting point so make sure it is clean. This will only make things simpler as you proceed further and make your results more reliable.花一些时间再数据清洗上面。数转载 2012-08-20 22:51:32 · 1167 阅读 · 0 评论 -
Kafka学习笔记
关于kafka的架构图在之前的一篇文章中有:http://wiki.corp.qunar.com/pages/viewpage.action?pageId=27866816kafka的一些设计理念:1、关注大吞吐量,而不是别的特性2、针对实时性场景3、关于消息被处理的状态是在consumer端维护,而不是由kafka server端维护。4、分布式,producer、b翻译 2012-10-21 20:03:12 · 10773 阅读 · 0 评论 -
BDTC 参会总结
今天有幸能参加大数据技术会议,感受国内外的前沿技术,感觉很兴奋。来回跑了几个会场,听了11个议题,简单做个总结,做个记录,也希望能对没有参加会议的技术朋友有点帮助。带着相机去的,我所看到的ppt都有照片,有的没有听全,所以有点小缺陷。1、Hbase and HOYA 这个是Hortonworks的工程师 Ted Yu(很著名)做的演讲,去的时候已经讲了十几分钟。国外的大数据公司还是很有原创 2013-12-07 00:08:20 · 1760 阅读 · 1 评论 -
python连接 hive 执行hsql
记录一下笔记:#!/usr/bin/env pythonimport syssys.path.append('/home/q/hive-0.10.0/lib/py')from hive_service import ThriftHivefrom hive_service.ttypes import HiveServerExceptionfrom thrift import Thr原创 2013-04-09 11:51:34 · 3597 阅读 · 0 评论