
大数据
文章平均质量分 81
Vax_Loves_1314
正不断走向秃顶的程序猿人生~
展开
-
【数据分析从入门到“入坑“系列】利用Python学习数据分析-Numpy中的数组转置和轴对称
数组转置和轴对换转置是重塑的一种特殊形式,它返回的是源数据的视图(不会进行任何复制操作)。数组不仅有transpose方法,还有一个特殊的T属性:In [126]: arr = np.arange(15).reshape((3, 5))In [127]: arrOut[127]: array([[ 0, 1, 2, 3, 4], [ 5, 6, 7, 8, 9], [10, 11, 12, 13, 14]])In [128]: arr.T...原创 2021-06-30 23:49:27 · 2387 阅读 · 0 评论 -
【数据分析从入门到“入坑“系列】利用Python学习数据分析-Numpy中的索引
基本的索引和切片NumPy数组的索引是一个内容丰富的主题,因为选取数据子集或单个元素的方式有很多。一维数组很简单。从表面上看,它们跟Python列表的功能差不多:In [60]: arr = np.arange(10)In [61]: arrOut[61]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])In [62]: arr[5]Out[62]: 5In [63]: arr[5:8]Out[63]: array([5, 6, 7])In原创 2021-06-30 23:48:25 · 2213 阅读 · 0 评论 -
【数据分析从入门到“入坑“系列】利用Python学习数据分析-Numpy中的ndarray
NumPy的ndarray:一种多维数组对象NumPy最重要的一个特点就是其N维数组对象(即ndarray),该对象是一个快速而灵活的大数据集容器。你可以利用这种数组对整块数据执行一些数学运算,其语法跟标量元素之间的运算一样。要明白Python是如何利用与标量值类似的语法进行批次计算,我先引入NumPy,然后生成一个包含随机数据的小数组:In [12]: import numpy as np# Generate some random dataIn [13]: data = np.ra原创 2021-06-30 23:46:36 · 2260 阅读 · 0 评论 -
【数据分析从入门到“入坑“系列】利用Python学习数据分析-Numpy认识和使用
NumPy(Numerical Python的简称)是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。NumPy的部分功能如下: ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。 线性代数、随机数生成以及傅里叶变换功能。 用于集成由C、C++、Fortran等语言编写的原创 2021-06-30 23:45:32 · 2214 阅读 · 0 评论 -
【数据分析从入门到“入坑“系列】利用Python学习数据分析-文件和操作系统
文件和操作系统本书的代码示例大多使用诸如pandas.read_csv之类的高级工具将磁盘上的数据文件读入Python数据结构。但我们还是需要了解一些有关Python文件处理方面的基础知识。好在它本来就很简单,这也是Python在文本和文件处理方面的如此流行的原因之一。为了打开一个文件以便读写,可以使用内置的open函数以及一个相对或绝对的文件路径:In [207]: path = 'examples/segismundo.txt'In [208]: f = open(path)默认原创 2021-06-30 23:44:16 · 2199 阅读 · 1 评论 -
【数据分析从入门到“入坑“系列】利用Python学习数据分析-Python函数
函数是Python中最主要也是最重要的代码组织和复用手段。作为最重要的原则,如果你要重复使用相同或非常类似的代码,就需要写一个函数。通过给函数起一个名字,还可以提高代码的可读性。函数使用def关键字声明,用return关键字返回值:def my_function(x, y, z=1.5): if z > 1: return z * (x + y) else: return z / (x + y)同时拥有多条return语句也是可以的。如果到...原创 2021-06-20 16:00:49 · 1509 阅读 · 0 评论 -
【数据分析从入门到“入坑“系列】利用Python学习数据分析-Python数据结构-2
切片用切边可以选取大多数序列类型的一部分,切片的基本形式是在方括号中使用start:stop:In [73]: seq = [7, 2, 3, 7, 5, 6, 0, 1]In [74]: seq[1:5]Out[74]: [2, 3, 7, 5]切片也可以被序列赋值:In [75]: seq[3:4] = [6, 3]In [76]: seqOut[76]: [7, 2, 3, 6, 3, 5, 6, 0, 1]切片的起始元素是包括的,不包含结束元素。因此,结果中包原创 2021-06-12 22:27:45 · 1197 阅读 · 3 评论 -
【数据分析从入门到“入坑“系列】利用Python学习数据分析-Python数据结构-1
Python的数据结构简单而强大。通晓它们才能成为熟练的Python程序员。元组元组是一个固定长度,不可改变的Python序列对象。创建元组的最简单方式,是用逗号分隔一列值:In [1]: tup = 4, 5, 6In [2]: tupOut[2]: (4, 5, 6)当用复杂的表达式定义元组,最好将值放到圆括号内,如下所示:In [3]: nested_tup = (4, 5, 6), (7, 8)In [4]: nested_tupOut[4]: ((4, 5,原创 2021-06-12 22:09:40 · 1095 阅读 · 3 评论 -
【数据分析从入门到“入坑“系列】利用Python学习数据分析-IPython讲解
笔记:本章没有介绍Python的某些概念,如类和面向对象编程,你可能会发现它们在Python数据分析中很有用。 为了加强Python知识,我建议你学习官方Python教程,https://docs.python.org/3/,或是通用的Python教程书籍,比如: Python Cookbook,第3版,David Beazley和Brian K. Jones著(O’Reilly) 流畅的Python,Luciano Ramalho著 (O’Reilly) 高效的Python,Br原创 2021-06-05 19:16:18 · 686 阅读 · 2 评论 -
【数据分析从入门到“入坑“系列】利用Python学习数据分析-环境配置和软件安装
由于人们用Python所做的事情不同,所以没有一个普适的Python及其插件包的安装方案。由于许多读者的Python科学计算环境都不能完全满足本系列的需要,所以接下来我将详细介绍各个操作系统上的安装方法。我推荐免费的Anaconda安装包。写作本系列时,Anaconda提供Python 2.7和3.6两个版本,以后可能发生变化。本系列使用的是Python 3.6,因此推荐选择Python 3.6或更高版本。Windows要在Windows上运行,先下载Anaconda安装包。推荐跟随Anaconda原创 2021-05-30 22:24:58 · 553 阅读 · 0 评论 -
【数据分析从入门到“入坑“系列】利用Python学习数据分析-准备工作
1.1 本系列的内容本系列讲的是利用Python进行数据控制、处理、整理、分析等方面的具体细节和基本要点。我的目标是介绍Python编程和用于数据处理的库和工具环境,掌握这些,可以让你成为一个数据分析专家。虽然本系列的标题是“数据分析”,重点却是Python编程、库,以及用于数据分析的工具。这就是数据分析要用到的Python编程。什么样的数据?当书中出现“数据”时,究竟指的是什么呢?主要指的是结构化数据(structured data),这个故意含糊其辞的术语代指了所有通用格式的数据,例如:原创 2021-05-29 14:27:48 · 874 阅读 · 0 评论 -
【新星计划】【数据清洗】pandas库清洗数据的七种方式
1.处理数据中的空值我们在处理真实的数据时,往往会有很多缺少的的特征数据,就是所谓的空值,必须要进行处理才能进行下一步分析空值的处理方式有很多种,一般是删除或者填充Excel通过“查找和替换”功能实现空值的统一替换:通过“定位”删除空值:pandas处理空值的方式比较灵活,可以使用dropna函数删除空值importpandasaspddata=pd.read_csv('成绩表.csv',encoding='gbk')data.dropna(how='any')...原创 2021-05-15 16:50:32 · 497 阅读 · 0 评论 -
【数据分析】数据可视化实际应用小技巧
优秀的数据可视化图表只是罗列、总结数据吗?当然不是!数据可视化其真正的价值是设计出可以被读者轻松理解的数据展示,因此在设计过程中,每一个选择,最终都应落脚于读者的体验,而非图表制作者个人。这里给大家总结了数据可视化的制作的30个小技巧,通过列举一些容易被忽略的常见错误,最终能够快速提升和巩固你的可视化制作水平。一、你不得不注意的图表制作小技巧1.条形图的基线必须从零开始条形图的原理就是通过比较条块的长度来比较值的大小。当基线被改变了,视觉效果也就扭曲了。2.使用简单易读的字体...原创 2021-05-12 16:43:41 · 692 阅读 · 0 评论 -
【数据分析】基于癌症生存数据建立神经网络
目录概览Haberman乳腺癌生存数据集神经网络学习机制模型稳健性评估最终的模型和预测教程总结根据新数据集开发神经网络预测模型是一个挑战。一种方法是先对数据集进行探查,然后思考什么模型适用于这个数据集,先尝试一些简单的模型,最后再开发并调优一个稳健的模型。这个流程适用于为分类、回归预测模型问题开发高效的神经网络。本教程中,你将学习如何开发一个多层感知机神经网络模型,用于癌症生存二分类数据集。完成本教程后,你将了解到: 如何加载和汇总癌症生存数据集,根据.原创 2021-05-12 10:32:52 · 780 阅读 · 0 评论 -
【图文解析】如何入门爬虫,看完这篇文章你就懂了
原创 2021-02-28 21:14:38 · 248 阅读 · 0 评论 -
详细解读Python打包成exe教程
标准打包目前比较常见的打包exe方法都是通过Pyinstaller来实现的,本文也将使用这种常规方法。如果对这块已经很熟悉的小伙伴,可以直接下滑到本文下半部分。为什么要打包?众所周知,Python脚本不能在没有安装Python的机器上运行。那我们如果写了一个数据分析/自动化办公的小脚本,想分享给同事小姐姐使用,可她电脑又没有装Python。这个时候如果将脚本打包成exe文件,微信发送给她,即使她的电脑上没有安装Python解释器,这个exe程序也能在上面运行。岂不美哉?(当然,想原创 2021-02-01 00:01:33 · 7944 阅读 · 2 评论 -
盘点12个Python数据可视化库
大家普遍第一次接触到的Python数据可视化库基本上都是Matplotlib。Python还有很多数据可视化库,本文我将简单介绍12款常用的Python数据可视化库,并在文末送出一本数据可视化书籍!Python有很多数据可视化库,这些数据可视化库主要分为探索式可视化库和交互式可视化库。前者透过简单直接的视觉图形,更方便用户看懂原数据,后者主要用于与业务结合过程中展现总体分析结果。探索式可视化库探索式分析最大的优势在于,可以让业务人员在海量数据中“自由发挥”,不受数据模型的限制。通过探索式分析原创 2021-01-31 23:49:09 · 809 阅读 · 0 评论 -
(Python实用)用Python做的交互式动态大图
今天给大家分享1个pyecharts交互式动态可视化案例,通过先拆分、后组合的方式,一步步教你如何实现,具体成果如下。本次案例数据来源于国家统计局,通过爬虫获取,这里已给大家备好,请在文末获取一、绘制基本图形用pandas读取数据,通过整合数据格式,分别用pyecharts绘制地图、柱状图、饼图,具体内容如下:1.绘制地图importpyecharts.optionsasoptsfrompyecharts.globalsimportThemeTypefrompye...原创 2021-01-31 22:56:49 · 1630 阅读 · 1 评论 -
十年之后再看,腾讯位置服务的发展与腾讯地图的融合
到今天,腾讯在To B这条路上已经走了10年。从开始被质疑「腾讯没有To B的基因」,到现在腾讯在产业互联网的领域全面开花,腾讯无疑证明了自己。就在腾讯迎来在To B领域整整十年的前一天,腾讯地图产业版WeMap在其北京总部进行了发布。对于此次腾讯地图产业版的发布,虽没有了此前的质疑,但却引起了众多的疑问。作为一个基础的paas平台,腾讯发布WeMap的背后究竟是在谋求什么?1.新的挑战腾讯地图最早属于原MIG(移动互联网事业群),此前是一款To C(面向用户)的产品,就是我们..原创 2021-01-31 12:36:04 · 3181 阅读 · 0 评论 -
Python做数据分析(一)分析社区超市运营数据,自动更新促销时间
目录1.读取数据2.分析哪些类别的商品比较畅销3.分析哪些商品比较畅销4.分析不同门店的销售额占比5.分析超市客流高分高峰时间段1.读取数据数据存放在表格中,我们用pandas将其读出来importpandasaspddata=pd.read_csv('超市运营数据.csv',encoding='gbk',parse_dates=["成交时间"])data2.分析哪些类别的商品比较畅销首先将数据按照类别ID进行分组,然后对分组后的销量进行求和,最后用...原创 2021-01-10 21:55:09 · 1893 阅读 · 1 评论 -
一篇文章带你理解爬虫究竟是什么?
目录前言爬虫的应用场景爬虫的技术选型简单的爬虫脑洞大开的爬虫解决思路复杂的爬虫设计音视频爬虫实战一、先从几个方面来简单介绍我们音视频爬虫项目的体系二、分步来讲下细节三、遇到的问题和解决方案四、最后做下总结爬虫管理平台总结前言作为冷数据启动和丰富数据的重要工具,爬虫在业务发展中承担着重要的作用,我们业务在发展过程中积累了不少爬虫使用的经验,在此分享给大家,希望能对之后的业务发展提供一些技术选型方向上的思路,以更好地促进业务发展我们将会从以下.原创 2021-01-10 21:52:06 · 2331 阅读 · 0 评论 -
做数据分析必不可少的可视化工具,让我们一起白嫖!!
今天我们会介绍一下10个适用于多个学科的Python数据可视化库,其中有名气很大的也有鲜为人知的。1、matplotlib两个直方图matplotlib 是Python可视化程序库的泰斗。经过十几年它任然是Python使用者最常用的画图库。它的设计和在1980年代被设计的商业化程序语言MATLAB非常接近。由于 matplotlib 是第一个 Python 可视化程序库,有许多别的程序库都是建立在它的基础上或者直接调用它。比如pandas和Seaborn就是matplot..原创 2021-01-10 21:49:14 · 1428 阅读 · 0 评论 -
(最全正则表达式,没有之一!)详解Python正则表达式
1 前言正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,该模式描述在搜索文本时要匹配的一个或多个字符串。上面都是官方的说明,博主自己的理解是(仅供参考):通过事先规定好一些特殊字符的匹配规则,然后利用这些字符进行组合来匹配各种复杂的字符串场景。比如现在的爬虫和数据分析,字符串校验等等原创 2021-01-10 18:38:32 · 1469 阅读 · 1 评论 -
弄懂Python爬虫正则式书写?就这一篇博文就够了!
前言正则表达式是处理字符串的强大工具,它有自己特定的语法结构,可以实现字符串的检索、替换、匹配验证。案例引入打开开源中国提供的正则表达式测试工具https://tool.oschina.net/regex/,输入带匹配的文本,然后选择常用的正则表达式,就可以得到相应的匹配结果。运行界面其实,这里就是使用的正则表达式匹配,也就是用一定的规则将特定的文本提取出来。对于电子邮件来说可以使用[\w!#%&'+/=?^_`~-]+)@(?:\w?.)+\w?将它匹配出来。原创 2021-01-10 18:34:47 · 1361 阅读 · 0 评论 -
最全Python数据清理终极指南
一般来说,我们在拟合一个机器学习模型或是统计模型之前,总是要进行数据清理的工作。因为没有一个模型能用一些杂乱无章的数据来产生对项目有意义的结果。数据清理或清除是指从一个记录集、表或是数据库中检测和修改(或删除)损坏或不准确的数据记录的过程,它用于识别数据中不完整的、不正确的、不准确的或者与项目本身不相关的部分,然后对这些无效的数据进行替换、修改或者删除等操作。这是个很长的定义,不过描述的较为简单,容易理解。为了简便起见,我们在Python中新创建了一个完整的、分步的指南,你将从中学习到如何进行数原创 2020-11-30 22:49:53 · 1707 阅读 · 0 评论 -
【强烈推荐】机器学习中较为常用的的优化算法
在机器学习中,有很多的问题并没有解析形式的解,或者有解析形式的解但是计算量很大(譬如,超定问题的最小二乘解),对于此类问题,通常我们会选择采用一种迭代的优化方式进行求解。负梯度方法与Newton型方法在最优化方法中发挥着重要作用,也在现代金融科技,大规模的机器学习发挥不可或缺的作用。接下来,我们将针对这两种优化方法在机器学习中的应用进行讨论。一、最速下降法1.1最速下降法的原理假定在第k步的迭代点,我们想求处使得下降最快的方向。由上一章可知:这个方向应首先满足下降条件。虽然下降方向有无...原创 2020-08-31 23:51:49 · 1576 阅读 · 1 评论 -
【特征提取+分类模型】4种常见的NLP实践思路
越来越多的人选择参加算法赛事,为了提升项目实践能力,同时也希望能拿到好的成绩增加履历的丰富度。期望如此美好,现实却是:看完赛题,一点思路都木有。那么,当我们拿到一个算法赛题后,如何破题,如何找到可能的解题思路呢。本文针对NLP项目给出了4种常见的解题思路,其中包含1种基于机器学习的思路和3种基于深度学习的思路。一、数据及背景https://tianchi.aliyun.com/competition/entrance/531810/information(阿里天池-零基础入门NLP赛事)二、原创 2020-08-31 23:50:01 · 645 阅读 · 0 评论 -
基于 Flink 搭建实时个性化营销平台?
在大数据时代,金融科技公司通常借助消费数据来综合评估用户的信用和还款能力。这个过程中,某些中介机构会搜集大量的号并进行“养号”工作,即在一年周期里让这些号形成正常的消费、通讯记录,目的是将这些号“培养”得非常健康,然后卖给有欺诈意向的用户。这类用户通过网上信息提交审核,骗到贷款后就“销声匿迹”了。那么,如何更快速地预防或甄别可能的欺诈行为?如何从超大规模、高并发、多维度的数据中实现在线实时反欺诈?这些都是金融科技公司当下面临的主要难题。针对这些问题,InfoQ 专访玖富集团,揭秘基于 Flink .原创 2020-08-31 23:45:26 · 1069 阅读 · 1 评论 -
Hadoop Ozone如何巧妙利用Multi-Raft机制优化数据节点吞吐量
背景作为近期Hadoop社区的明星项目,Hadoop Ozone吸引了社区广泛的关注。它脱胎于HDFS,不仅同时支持文件系统和对象语义,能原生对接HDFS和S3两种访问模式,也将集群的读写性能和吞吐量视为重中之重。2019年年中,腾讯大数据团队开始上线Ozone集群承接大数据存储业务,数据湖小组也全力投入了Hadoop Ozone的开源项目中。在与Hadoop Ozone社区和Cloudera深度合作后,数据湖小组凭借在开源界多年的深耕和数据平台的业务对接实战经验,逐渐发现Ozone写入性能显现出了一定原创 2020-08-31 23:44:33 · 414 阅读 · 1 评论 -
解决Spark数据倾斜(Data Skew)的N种姿势
摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前缀等。为何要处理数据倾斜(Data Skew)什么是数据倾斜对Spark/Hadoop这样的大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。何谓数据倾斜?数据倾斜指的是,并行处理的数据集中,某一部分(如Spark或Kafka的一个Partition)的数据显著多于其它部分,从而原创 2020-08-31 23:43:34 · 414 阅读 · 0 评论 -
基于Spark的大规模推荐系统特征工程
导读:特征工程在推荐系统中有着举足轻重的作用,大规模特征工程处理的效率极大的影响了推荐系统线上的性能。第四范式作为国际领先的机器学习和人工智能技术与平台服务提供商,面向大规模特征工程问题开发了下一代离线在线一致性特征抽取引擎FESQL,针对AI场景支持SQL接口,兼容Spark 3.0同时提供高性能的Native执行引擎。本次分享题目为基于Spark的大规模推荐系统特征工程及优化,主要内容包括: 大规模推荐系统 Spark SQL应用与FESQL 基于LLVM的Spark优化.原创 2020-08-31 23:40:19 · 378 阅读 · 0 评论