- 博客(79)
- 资源 (9)
- 收藏
- 关注
原创 中小公司数据治理最佳实践-各个阶段准则及可采取措施
数据中台使命: 功能 数据源&数据接入 数据处理 数据服务 数据全面 业务状态数据(用户状态) 业务过程数据(用户状态变更记录) 公司运营(比如审核),后台过程数据(比如推荐算法中间结果) 数据准确 数据接入:明确数据业务背景,数据业务意义 数据变更:更及通知 数据源可靠性,上游异常及时报警 处理过程..
2020-07-28 21:03:46
303
原创 理想开发流程
想到哪,写到哪;数据开发作为独立流程的开发流程一、需求提出阶段解释:产品经理提出的新业务需求参与人:产品经理、数据分析师负责人:产品经理要求:1.产品经理(数据分析师)一起给出评估产品功能效果的数据指标,及预期的指标数值范围2.数据产品保证约定口径是可行的,并且确认现有上游数据的可用性3.说明数据重要等级,使用人群产出:预期收益;在wiki上的功能需求文档,必须包含业务验证阶段的埋点/数据需求;二、技术评审解释:产品需求进行技术评审阶段/技术发起项目进入技
2020-07-28 20:46:05
405
原创 中小公司数据治理最佳实践-数据接入
数据接入准则:意义:规范的数据接入能大大减少后续的维护及使用代价规定:意义明确:(有实时更新的wiki说明)(数据中台-元数据负责) 日志级别:明确说明在整个公司业务流程中的位置 记录级别:每条日志的打印时机和对应业务操作对应关系 字段级别:每个字段的具体意义,比如:枚举和业务的对应关系; 格式规范:(流程规范性负责) 最佳实践要求: 扩展性 易读性 后续解析代价 压缩 范例:可以考虑无格式,tag分割,json,protobuf (越来越严格,
2020-07-28 20:44:43
741
原创 中小公司数据治理最佳实践-总则
公司背景:五脏俱全小公司 数据团队在公司定位:公司内所有生产数据(商业/用户/内容)(ERP系统不在其内)管理,并使其发挥最大价值 时间进化过程:从0-现在-理想流程&框架过程 以下为其现在技术架构图: 技术架构图后续内容会从各个流程的实现&部署&实施过程的问题及解决方面进行讲解,欢迎大家讨论...
2020-07-28 20:40:46
223
翻译 pod setup太慢终极解决办法
当我们去执行pod setup的时候,会发现那是一个相当的慢。估计一天的时间都浪费再这上面。这是因为使用的国外的镜像,只要使用国内的镜像就很好的解决了。只要使用 cd ~/.cocoapods/repos然后 执行 pod repo remove master来删除master文件再执行 git clone https://mirrors.tuna.tsinghua.edu.cn/git/C...
2019-08-08 11:09:52
277
原创 Leveldb lmdb性能对比
测试机环境: 96G内存 433G*5SSD 内核:2.6.32_1-15-0-0 磁盘调度算法:noop结论: 1. lmdb的数据膨胀率大约为leveldb的1.5-1.8倍之间,需与comdb对比 2. lmdb在单盘5M写入状态下仍能满足要求(leveldb不能): Percentile Latency(max la...
2018-07-16 17:25:04
5540
原创 子数组求和
子数组元素求和题目一:连续子数组求和/** * 题目:连续子数组求和 * 给定一个整数数组,请找出所有的连续子数组,计算所有的子数组的和,输出子数组和相加的结果。 * * 例如: * 数组 [1, 3, 7]有7个子数组: * [] [1] [3] [7] [1,3] [3,7] [1,3,7] * 子数组相加后...
2018-07-06 21:15:37
1604
1
原创 线上问题集锦
hdfs上的文件要做md5sum(如果是自己输出可以做的话),保证下载文件的正确性自己数据引擎要有验证文件正确性机制,防止任意内容导致的引擎程序读错误(core)...
2018-06-19 15:29:08
223
原创 在ubuntu机器安装keras cuda
在ubuntu机器安装keras cuda查看网卡命令lspci 看到有3D controller: NVIDIA Corporation Device00:00.0 Host bridge: Intel Corporation 440FX - 82441FX PMC [Natoma] (rev 02)00:01.0 ISA bridge: Intel Corporatio...
2018-05-11 17:03:32
574
翻译 Reliable, Scalable, and Maintainable Applications 高可靠、易扩展、易运维应用
寻找翻译本书后续章节合作者 微信:18600166191----------------------------------PART I Foundations of Data Systems第一部分:数据系统基础The first four chapters go through the fundamental ideasthat apply to all data systems, whet...
2018-03-02 19:02:07
2257
翻译 Designing Data-Intensive Applications
寻找翻译本书后续章节合作者 微信:18600166191-----------------------------------Designing Data-Intensive Applications The Big Ideas Behind Reliable, Scalable, and MaintainableSystems数据密集应用系统设计高可用,易扩展,好运维系统背后的思想Beijin...
2018-03-02 18:59:23
3005
1
原创 滑动窗口限速 周期抖动现象
异步压测 vs 同步压测场景介绍 利用baidu rpc_press工具的进行单client 与单server的压测。利用同步测试模式 最大能力压测,qps 23000,cpu利用率85%, cpu是瓶颈利用异步压测方式,设定单线程滑动窗口2000,进行压测 初始时平均时延1ms,没有长尾。cpu利用率45%左右,随着时间进行,平均时延逐渐增长,开始有长
2018-01-30 21:00:45
902
原创 TensorFlow Servering源码解析(2017-8-17)
步骤一:建议先通读TensorFlow Servering官网,对整体概念有大体的认识步骤二:去TF github下载源码。注意,同时下载tensoflow源码,servering会依赖其中的一部分步骤三:开始源码解析目录介绍:api 对外服务接口部分batching 不知道在干啥config Server的配置参数core 模型管理核心部分。包括模型发现,加载,本机资源管理
2017-08-17 17:22:35
3079
原创 集群高可用性
基础介绍: hadoop2.0 HA方式 QJM[http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html] NFS [http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop
2017-05-29 15:06:46
373
原创 电子商务平台
ecshop:开源 商业应用需缴费。 ShopEX :后端没有源码,前端有源码,需缴费 。有钱最方便前两者占据90%市场份额magento:开源免费,学习维护成本高。 WooCommerce:wordpress 插件,开源免费 最易上手
2016-05-14 20:39:55
676
原创 linux reactor predictor
linux对于aio的支持落后,导致linux下reactor模式效率高于predictor,所以linux很多网络库( libevent )用reactor模式实现。 而windows系统对aio的支持更好。
2016-04-20 11:27:00
564
转载 reactor/proactor模型简介
Reactor和preactor都是IO多路复用模式,一般地,I/O多路复用机制都依赖于一个事件多路分离器(Event Demultiplexer)。分离器对象可将来自事件源的I/O事件分离出来,并分发到对应的read/write事件处理器(Event Handler)。开发人员预先注册需要处理的事件及其事件处理器(或回调函数)。Reactor模式采用同步IO,而Proactor采用异步I
2016-04-20 11:10:37
349
转载 Reactor与Proactor的概念
1、标准定义 两种I/O多路复用模式:Reactor和Proactor一般地,I/O多路复用机制都依赖于一个事件多路分离器(Event Demultiplexer)。分离器对象可将来自事件源的I/O事件分离出来,并分发到对应的read/write事件处理器(Event Handler)。开发人员预先注册需要处理的事件及其事件处理器(或回调函数);事件分离器负责将请求事件传递给事件处理器。两个与事件
2016-04-20 10:48:34
328
原创 ssd/内存 基本知识
NAND闪存与NOR闪存 异同 http://www.360doc.com/content/08/0910/20/494_1629259.shtmlNorFlash和NandFlash性能区别 http://blog.youkuaiyun.com/jxhui23/article/details/8113217闪存基础(硬件组织形式,为啥会有block为单位的读写) http://www.ssdfans.c
2016-04-09 12:25:04
587
原创 aerospike 代码阅读
hb.hsuccession(长期对话) list在集群中的机器列表 adjacency list心跳过程中传过来本次在线机器列表(用来更新succesion list),定期检查发现expire放入delete 列表中。 discovered list ,收到心跳,但是没有链接,新发现的机器列表。 snub(昏暗的,要死的) list机器列表,从delete 列表中删除后放入此列表. 接收
2016-04-06 15:44:40
739
原创 memcache 1.4.24源码分析
内存管理 最底层为slab。/* powers-of-N allocation structures */typedef struct { unsigned int size; /* sizes of items */ unsigned int perslab; /* how many items per slab */ void *slots;
2016-03-26 10:41:13
583
原创 在线系统设计考虑点
以下是一个复杂在线系统设计需要考虑点访问追踪(debug)系统。(单模块系统可以用日志,多模块系统需要更加queryid组合)
2016-02-17 14:01:20
431
原创 分布式存储系统,问题层级
面对问题1. 机房问题2. 路由器问题3. 机架问题4. 路由器问题5. 单机问题(内存,网线,ssd,raid卡)6. 操作系统问题(内核参数,驱动)7. 运行环境问题(依赖库,包,环境变量)8. 程序问题
2016-02-15 16:27:16
520
原创 《黑客与画家》读后感————一堆个人谬论
以下定义及观点都是个人随口胡诌。 电子商务是人类社会自然选择的正确方向。人类所有活动的动机都是为了增加人生的满足感。(当前满足感以及未来满足感的不对等性,以及未来的不确定性,此处不能简单求和)。 今天早晨在火车上7:30起床看书,为了收获30%的短期读书充实感,及70%对未来生活概率性改善的长久欣慰感。写本文时听着侃侃的《嘀嗒》,为了增加短期舒适感。午饭第一次去火车餐车用餐,满足好奇心。1.
2015-11-15 21:46:43
789
原创 redis,mongodb,hbase,mola,aerospike,couchbase,对比
项目 mongodb hbase redis 数据格式 json 二进制 多种类型 固化方式 自己的文件格式 一般架设在hdfs上,可以认为是一个分布式内存索引系统 有两种固话方式,操作日志/数据 负载均衡 可以自动均衡 自动均衡,迁移 手动指定分片在哪个机器上 主备方式 副本集方式,自动切换 分布式内存索引,无主备 指定主备
2015-11-05 22:39:28
2380
原创 c/c++编程习惯
1. 不要在头文件中define(除了文件保护头之外)。加入别人include你的头文件之后,会将define拿走,也许会产生冲突。
2015-09-23 15:52:54
500
Leveldb lmdb性能对比
2018-07-16
计算广告相关文档
2018-07-07
Serial ATA Revision 3.0
2017-10-20
PCI Express System Architecture
2017-10-20
wuhuaiyu 2017答辩ppt
2017-04-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人