
大数据
TechFlow
公众号:TechFlow
展开
-
数据处理 | pandas入门专题——离散化与one-hot
今天是pandas数据处理专题第7篇文章。在上一篇文章当中我们介绍了对dataframe进行排序以及计算排名的一些方法,在今天的文章当中我们来了解一下dataframe两个非常重要的功能——离散化和one-hot。离散化离散对应的反面是连续,离散化也就是将连续性的数值映射到一个离散的值。举个很简单的例子,比如说现在有一个特征是用户的收入,我们都知道贫富差距是非常巨大的,一个马云的收入顶的上成千上万人收入之和。而最穷的人收入非常少,甚至每天不到一美元。我们来设想一下,假设我们将收入这个值作为特征放原创 2020-08-28 14:37:49 · 433 阅读 · 0 评论 -
pandas | 详解DataFrame中的apply与applymap方法
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是pandas数据处理专题的第5篇文章,我们来聊聊pandas的一些高级运算。在上一篇文章当中,我们介绍了panads的一些计算方法,比如两个dataframe的四则运算,以及dataframe填充Null的方法。今天这篇文章我们来聊聊dataframe中的广播机制,以及apply函数的使用方法。dataframe广播广播机制我们其实并不陌生, 我们在之前介绍numpy的专题文章当中曾经介绍过广播。当我们对两个尺寸不一致的数组进行运原创 2020-08-10 17:37:26 · 1145 阅读 · 1 评论 -
pandas | 使用pandas进行数据处理——Series篇
本文始发于个人公众号:TechFlow,原创不易,求个关注上周我们关于Python中科学计算库Numpy的介绍就结束了,今天我们开始介绍一个新的常用的计算工具库,它就是大名鼎鼎的Pandas。Pandas的全称是Python Data Analysis Library,是一种基于Numpy的科学计算工具。它最大的特点就是可以像是操作数据库当中的表一样操作结构化的数据,所以它支持许多复杂和高级的操作,可以认为是Numpy的加强版。它可以很方便地从一个csv或者是excel表格当中构建出完整的数据,并支持原创 2020-07-01 12:27:35 · 406 阅读 · 0 评论 -
手把手教你学Numpy,从此处理数据不再慌「一」
本文始发于个人公众号:TechFlow,原创不易,求个关注当当当,我又开新坑了,这次的专题是Python机器学习中一个非常重要的工具包,也就是大名鼎鼎的numpy。所以今天的文章是Numpy专题的第一篇。俗话说得好,机器学习要想玩的溜,你可以不会写Python,但一定不能不会调库(大雾)。Numpy可以说是Python中最基础也是最重要的工具库了,要用Python做机器学习,玩转各种框架,Numpy是必须要会的。像是TensorFlow、pytorch这些知名框架都是基于Numpy进行计算的,可想而原创 2020-05-13 08:34:53 · 242 阅读 · 0 评论 -
spark——详解rdd常用的转化和行动操作
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是spark第三篇文章,我们继续来看RDD的一些操作。我们前文说道在spark当中RDD的操作可以分为两种,一种是转化操作(transformation),另一种是行动操作(action)。在转化操作当中,spark不会为我们计算结果,而是会生成一个新的RDD节点,记录下这个操作。只有在行动操作执行的时候,spark才会从头开始计...原创 2020-04-19 20:57:59 · 1729 阅读 · 0 评论 -
分布式专题——详解Google levelDB底层原理
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是分布式专题的第10篇文章,我们继续来聊聊LSMT这个数据结构。LSMT是一个在分布式系统当中应用非常广泛,并且原理直观简单的数据结构。在上一篇文章当中我们进行了详细的讨论,有所遗忘或者是新关注的同学可以点击下方的链接回顾一下上一讲的内容。分布式——吞吐量巨强、Hbase的承载者 LSMTleveldb简介上一篇的内容我们介...原创 2020-03-28 10:05:39 · 743 阅读 · 0 评论 -
分布式——吞吐量巨强、Hbase的承载者 LSMT
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是分布式系统的第九篇文章。今天给大家分享的内容是LSM树,它的英文是Log-structed Merge-tree。看着有些发怵,但其实它的原理不难,和B树相比简直算是小儿科了。并且这也是一个非常经典的数据结构,并且在大数据系统当中有非常广泛的应用。有许多耳熟能详的经典系统,底层就是基于LSM树实现的。因此,今天就和大家一起来深...原创 2020-03-21 09:14:47 · 496 阅读 · 1 评论 -
详解SkipList跳跃链表【含代码】
本文始发于个人公众号:TechFlow,原创不易,求个关注今天继续介绍分布式系统当中常用的数据结构,今天要介绍的数据结构非常了不起,和之前介绍的布隆过滤器一样,是一个功能强大原理简单的数据结构。并且它的缺点和短板更少,应用更加广泛,比如广泛使用的Redis就有用到它。SkipList简介SkipList是一个实现快速查找、增删数据的数据结构,可以做到O(logN)O(logN)O(lo...原创 2020-02-22 09:02:57 · 251 阅读 · 0 评论 -
大数据算法——布隆过滤器
本文始发于个人公众号:TechFlow,原创不易,求个关注今天的文章和大家一起来学习大数据领域一个经常用到的算法——布隆过滤器。如果看过《数学之美》的同学对它应该并不陌生,它经常用在集合的判断上,在海量数据的场景当中用来快速地判断某个元素在不在一个庞大的集合当中。它的原理不难,但是设计非常巧妙,老实讲在看《数学之美》之前,我也没有听说过这个数据结构,所以这篇文章也是我自己学习的笔记。原理...原创 2020-02-15 09:20:55 · 436 阅读 · 0 评论 -
分布式专题——判断因果关系的向量时钟算法
今天的文章来聊聊向量时钟,在前文介绍分布式系统一致性的时候,曾经介绍过,在弱一致性模型当中会有一个因果性的问题。向量时钟算法正是设计出来解决因果关系问题的。我们来回顾一下因果问题,在实际日常的网页行为当中,部分行为存在因果关系。比方说知乎里面回答问题,显然得先有一个同学提出问题,然后才能有各路大V谢邀解答问题。但是由于是分布式系统,有可能问题和回答并不是存放在同一台机器,导致有可能它们更新的顺...原创 2020-02-09 09:51:38 · 1166 阅读 · 0 评论 -
分布式初探——分布式事务与两阶段提交协议
今天的文章咱们聊的是分布式原理当中的原子性,也称为分布式事务。不知道会不会有人觉得奇怪,分布式系统CAP原则当中并没有原子性,这个原子性是从哪里冒出来的?其实并不奇怪,之前我们在介绍各种一致性原则的时候,虽然没有明确提出来,但是原子性的相关内容已经隐藏在其中了。让我们回顾一下,分布式系统当中的一致性简单可以分为强一致性和弱一致性。强一致性很好理解,简单可以理解成主节点每次更新都通过同步的方式,...原创 2020-02-01 09:31:59 · 368 阅读 · 0 评论 -
分布式初探——讲透分布式系统一致性模型
本文始发于个人公众号:TechFlow在计算机系统的领域,一致性可以说是一个高频词,可能出现的场景很多。从分布式系统到数据库的事务,都有它的身影。之前我们在介绍数据库事务的时候,谈到过事务的一致性。在数据库当中,一致性是一种目的,不是一种手段。数据库希望控制事务的原子性、隔离性和持久性来保证数据的一致性。这里的一致性更多的指的是实际和我们观念的一致。也就是说结果都在我们预期之内。而在分布式系统...原创 2020-01-18 09:02:18 · 1715 阅读 · 0 评论 -
分布式系统为什么CAP无法同时达到?
从前有一户夫妻,他们生了两个孩子。已知其中一个是女孩,那么另一个孩子也是女孩的概率是多少呢?这是一道概率论课本上的经典问题,一开始的时候,很多人会觉得两个孩子的性别是独立事件,我们知道其中一个孩子的性别,应该对另一个孩子没有影响。但实际上并不是这样,我们可以列出两个孩子性别的所有可能:孩子1孩子2男女男男女女女男从上面这个表格里,我们可以看出...原创 2020-01-10 08:04:02 · 751 阅读 · 0 评论 -
大数据基石——Hadoop与MapReduce
本文始发于个人公众号:TechFlow近两年AI成了最火热领域的代名词,各大高校纷纷推出了人工智能专业。但其实,人工智能也好,还是前两年的深度学习或者是机器学习也罢,都离不开底层的数据支持。对于动辄数以TB记级别的数据,显然常规的数据库是满足不了要求的。今天,我们就来看看大数据时代的幕后英雄——Hadoop。Hadoop这个关键词其实有两重含义,最早它其实指的就是单纯的分布式计算系统。但是随...原创 2019-12-28 21:50:32 · 642 阅读 · 0 评论