阿奴波仔-优快云博客

原创 Bigtable： A Distributed Storage System for Structured Data

是一种分布式结构化数据存储管理系统，存储量级是PB级别。存储的数据类型和延时要求差异都很大。论文介绍数 bigtable 的数据模型。

2024-06-15 11:36:02 1103

原创 MapReduce Simplified Data Processing on Large Clusters 论文笔记

MapReduce 是一种变成模型，用于处理和生成大规模数据。用户指定 map 函数处理每一个 key/value 对来产生中间结果的 key/value 对；reduce 函数合并每一个相同中间 key 的 value。这种编程风格能自动获得并行在大型集群上运行的便利。这套运行时系统则帮助用户接管来数据分片分发，机器通讯，节点失败等问题。无需用户了解并行分布式系统的知识就能利用好大型分布式系统。

2024-06-15 11:21:52 1189

原创 The Google File System 论文阅读

2003年USENIX，出自谷歌，开启分布式大数据时代的三篇论文之一。

2024-06-15 09:56:34 936

原创 DBNet 论文笔记

白翔老师组、旷视科技、上交 2019年发表在AAAI上的一篇文字检测论文，提出的模型简称DBNetDBNet 中的 DB是 Differentiable Binarization 的缩写，翻译为可微分的二值化。在 DBNet 中，分割结果的二值化后处理可以随着模型一起训练，得到一个自适应的阈值。自适应的阈值也可以使得后处理变得简单，提升进度，也提高速度。我理解整体的思路是预测收缩核心区，并且通过自适应阈值提高边缘的准确性。预测时用收缩核心区反向扩张得到完整文字框。开源代码：https://github

2021-07-24 17:32:16 1361

原创 Designing Network Design Spaces 翻译笔记（一）

2020年何凯明组的论文，主旨是借助NAS（神经网络搜索）技术，探索出更加一般化的卷积网络设计准则。简介这幅图的描述中解释了设计空间和演进方式。简单说来，设计空间是一组参数化的可能得网络结构。我个人理解就是组网时候的约束参数，然后生成了非常多的结构。通过采样设计空间中具体的网络，并且测算他们的误差分布，来描述这个设计空间的好坏。例如设计空间A，经过两步优化之后，得到设计空间B和C，同时B和C...

2020-04-06 16:41:35 1289 2

原创工程师对产品的理解

对于绝大多数工程师，尤其是产品方向的工程师，对产品的理解越好，越能有助于职业发展。一、为什么工程师需要对产品有理解？工程师的天职是落地。落地不是说产品做出来就结束，而是要真实的被用户使用，满足用户的需求。如果一个产品做出来不好用，没人用，那不算落地。从平时工作的投产比和影响力来说，工程师也应该了解产品。对产品的理解，大的方向是确定产品做不做，小的方向是确定做成什么样，这两个方面都直接关系到工...

2020-03-15 07:24:30 593

原创 YOLOv3训练过程记录

在做YOLOv3检测的时候，第一阶段，一直使用 RMS 优化器，最多的时候训练200轮。"rsm_strategy": { "learning_rate": 0.001, "lr_epochs": [40, 80, 120, 160], "lr_decay": [1, 0.5, 0.25, 0.1, 0.02],}初始的学习率测试过 0.01，0.001，0.005...

2019-06-19 10:38:24 9379

原创 paddle 尝试实现 focal loss

paddle 里面没有 focal loss 的API，不过这个loss函数比较简单，所以决定自己实现尝试一下。在 paddle 里面实现类似这样的功能有两种选择：使用 paddle 现有的 op 去组合出来所需要的能力自己实现 oppython 端实现 opC++ 端实现 op两种思路都可以实现，但是难度相差很多，前者比较简单，熟悉 paddle 的数学操作，理解公式含义即可...

2019-05-30 09:23:29 2349

原创 seg link 文字检测

通过局部信息寻找小片片（segment）和小片片之间的连接（link）来进行文字检测。每个 seg 是文字的一部分，link 是虚构出来的 seg 和 seg 中点间的连线，能兼容各种形状和方向的文字框。基础网络和 ssd 很相似，seg 和 link 都是利用 conv 当作预测器预测得到。seg 部分的检测seg 的检测和 ssd 检测很像，基于密集采样，多层采样以适配多种尺度。卷积预测期...

2019-04-26 20:15:35 863

原创 Mysql主从库读写与事务

通常任务系统会选择生产者-消费者模型，中间有一个队列用于记录任务，例如使用 redis 的队列结构。同时任务扭转和执行状态信息落盘保存，例如 Mysql 的一张表。此时会有有两个模块同时读写 Mysql 的同一条数据。通常说来 Mysql 的配置是一主两从，分别在3台机器上。写操作和事务操作落在主库，读操作大都落在从库。以上面的模型为例子： 1、生产者产生了一个任务，加入 redis 中，同...

2018-06-23 16:44:41 5857 2

原创 docker离线安装

docker分操作系统离线安装步奏

2017-11-29 14:49:50 12549 1

原创 java工程师基础知识面试

最近思考到的初（中）级java开发工程师基础知识可以考察的点

2017-07-19 23:43:42 728

翻译自底向上分析Elasticsearch

这个系列文章里，我们将用一个新的视角去剖析Elasticsearch。我们先从一些底部的抽象层开始，逐步上移至用户视角。期间会学习Elasticsearch内部的数据结构和行为。

2017-06-01 00:06:25 1596

原创 Elasticsearch索引建议

最近在做日志收集，用到Elasticsearch作为存储层。有一些使用小贴士

2017-04-01 16:15:59 8603 6

原创多线程竞争消费 vs 一个管理者+一堆worker

两种生产消费模型

2017-03-22 19:57:15 663

原创 proftpd限制匿名用户的配置

ftp匿名用户配置

2016-09-14 16:01:43 3371

原创 MySql可重复读下的事务行为

Mysql在InnoDB引擎下，可重复读测试

2016-08-21 08:36:20 5367

原创 Postman发送带cookie的http请求

Postman带cookie

2016-06-15 23:42:41 114931 6

原创 Nginx配置基础

Nginx基本配置

2016-06-15 22:07:04 603

翻译 MySql中InnoDB引擎索引

Mysql中InnoDB引擎的索引分两类，一类是一级索引（主键的同义词），一类是二级索引（非主键的索引）。两类索引都使用B+tree形式组织，但一级索引的叶子节点包含所以对应的整行信息，所有的查询最终都是通过一级索引完成，二级索引只包含二级索引对应的一级索引。所以直接使用一级索引比用二级索引快，因为少了一系列二级索引到一级索引的磁盘I/O。同时，使用主键查询时，这种数据组织方式也比数据和索引分开要快

2016-05-01 15:06:35 1795