
Python数据分析
文章平均质量分 89
生信天地
不积跬步无以至千里,不积小流无以成江海。关注“生信天地”获取更多优质资源!
展开
-
Python办公自动化之Excel(中)
准备首先,我们需要安装依赖包#安装依赖包pip3installopenpyxl读取数据使用 openpyxl 中的load_workbook(filepath)加载本地一个 Excel 文件,返回结果是一个工作簿对象import openpyxl# 加载本地的Excel文件wb = openpyxl.load_workbook(file_path)利用工作簿对象,可以获取所有的 Sheet 名称及 Sheet 列表def get_all_sheet_nam...原创 2021-10-22 11:09:46 · 563 阅读 · 0 评论 -
36丨数据分析算法篇答疑
算法篇更新到现在就算结束了,因为这一模块比较难,所以大家提出了形形色色的问题。我总结了同学们经常遇到的问题,精选了几个有代表性的来作为答疑。没有列出的问题,我也会在评论区陆续解答。17-19 篇:决策树答疑 1:在探索数据的代码中,print(boston.feature_names) 有什么作用?boston 是 sklearn 自带的数据集,里面有 5 个 keys,分别是 data、target、feature_names、DESCR 和 filename。其中 data 代表特征矩阵,target原创 2021-06-23 19:45:16 · 803 阅读 · 1 评论 -
22丨SVM(上):如何用一根棍子将蓝红两色球分开?
今天我来带你进行 SVM 的学习,SVM 的英文叫 Support Vector Machine,中文名为支持向量机。它是常见的一种分类方法,在机器学习中,SVM 是有监督的学习模型。什么是有监督的学习模型呢?它指的是我们需要事先对数据打上分类标签,这样机器就知道这个数据属于哪个分类。同样无监督学习,就是数据没有被打上分类标签,这可能是因为我们不具备先验的知识,或者打标签的成本很高。所以我们需要机器代我们部分完成这个工作,比如将数据进行聚类,方便后续人工对每个类进行分析。SVM 作为有监督的学习模型,通常翻译 2021-06-21 20:30:48 · 299 阅读 · 0 评论 -
21丨朴素贝叶斯分类(下):如何对文档进行分类?
我们上一节讲了朴素贝叶斯的工作原理,今天我们来讲下这些原理是如何指导实际业务的。朴素贝叶斯分类最适合的场景就是文本分类、情感分析和垃圾邮件识别。其中情感分析和垃圾邮件识别都是通过文本来进行判断。从这里你能看出来,这三个场景本质上都是文本分类,这也是朴素贝叶斯最擅长的地方。所以朴素贝叶斯也常用于自然语言处理 NLP 的工具。今天我带你一起使用朴素贝叶斯做下文档分类的项目,最重要的工具就是 sklearn 这个机器学习神器。sklearn 机器学习包sklearn 的全称叫 Scikit-learn翻译 2021-06-21 20:09:39 · 523 阅读 · 0 评论 -
2021-06-2120丨朴素贝叶斯分类(上):如何让机器判断男女?
很多人都听说过贝叶斯原理,在哪听说过?基本上是在学概率统计的时候知道的。有些人可能会说,我记不住这些概率论的公式,没关系,我尽量用通俗易懂的语言进行讲解。贝叶斯原理是英国数学家托马斯·贝叶斯提出的。贝叶斯是个很神奇的人,他的经历类似梵高。生前没有得到重视,死后,他写的一篇关于归纳推理的论文被朋友翻了出来,并发表了。这一发表不要紧,结果这篇论文的思想直接影响了接下来两个多世纪的统计学,是科学史上著名的论文之一。贝叶斯原理跟我们的生活联系非常紧密。举个例子,如果你看到一个人总是花钱,那么会推断这个人多半是个翻译 2021-06-21 19:45:11 · 435 阅读 · 0 评论 -
19丨决策树(下):泰坦尼克乘客生存预测
在前面的两篇文章中,我给你讲了决策树算法。决策树算法是经常使用的数据挖掘算法,这是因为决策树就像一个人脑中的决策模型一样,呈现出来非常直观。基于决策树还诞生了很多数据挖掘算法,比如随机森林(Random forest)。今天我来带你用决策树进行项目的实战。决策树分类的应用场景非常广泛,在各行各业都有应用,比如在金融行业可以用决策树做贷款风险评估,医疗行业可以用决策树生成辅助诊断,电商行业可以用决策树对销售额进行预测等。在了解决策树的原理后,今天我们用 sklearn 工具解决一个实际的问题:泰坦尼克号翻译 2021-06-21 19:28:59 · 754 阅读 · 0 评论 -
18丨决策树(中):CART,一棵是回归树,另一棵是分类树
上节课我们讲了决策树,基于信息度量的不同方式,我们可以把决策树分为 ID3 算法、C4.5 算法和 CART 算法。今天我来带你学习 CART 算法。CART 算法,英文全称叫做 Classification And Regression Tree,中文叫做分类回归树。ID3 和 C4.5 算法可以生成二叉树或多叉树,而 CART 只支持二叉树。同时 CART 决策树比较特殊,既可以作分类树,又可以作回归树。那么你首先需要了解的是,什么是分类树,什么是回归树呢?我用下面的训练数据举个例子,你能看到不同职翻译 2021-06-21 19:10:13 · 715 阅读 · 0 评论 -
17 丨决策树(上):要不要去打篮球?决策树来告诉你
想象一下一个女孩的妈妈给她介绍男朋友的场景:女儿:长的帅不帅?妈妈:挺帅的。女儿:有没有房子?妈妈:在老家有一个。女儿:收入高不高?妈妈:还不错,年薪百万。女儿:做什么工作的?妈妈:IT 男,互联网公司做数据挖掘的。女儿:好,那我见见。在现实生活中,我们会遇到各种选择,不论是选择男女朋友,还是挑选水果,都是基于以往的经验来做判断。如果把判断背后的逻辑整理成一个结构图,你会发现它实际上是一个树状图,这就是我们今天要讲的决策树。决策树的工作原理决策树基本上就是把我们以前的经验总结出来。我给你翻译 2021-06-21 19:09:11 · 1916 阅读 · 0 评论 -
16丨数据分析基础篇答疑
我总结了 NumPy、Pandas、爬虫以及数据变换中同学们遇到的问题,精选了几个具有代表性的来作为答疑。NumPy 相关答疑 1:如何理解 NumPy 中 axis 的使用?这里我引用文稿中的一段代码:a = np.array([[4,3,2],[2,4,1]])print np.sort(a)print np.sort(a, axis=None)print np.sort(a, axis=0) print np.sort(a, axis=1) 同学们最容易混淆的是 axis=0 和 ax..翻译 2021-06-21 19:08:26 · 476 阅读 · 0 评论 -
15丨一次学会Python数据可视化的10种技能
今天我来给你讲讲 Python 的可视化技术。如果你想要用 Python 进行数据分析,就需要在项目初期开始进行探索性的数据分析,这样方便你对数据有一定的了解。其中最直观的就是采用数据可视化技术,这样,数据不仅一目了然,而且更容易被解读。同样在数据分析得到结果之后,我们还需要用到可视化技术,把最终的结果呈现出来。可视化视图都有哪些?按照数据之间的关系,我们可以把可视化视图划分为 4 类,它们分别是比较、联系、构成和分布。我来简单介绍下这四种关系的特点:比较:比较数据间各类别的关系,或者是它们随着时间的变翻译 2021-06-21 19:04:47 · 324 阅读 · 0 评论 -
14丨数据可视化:掌握数据领域的万金油技能
上一讲中,我给你讲了数据变换,今天讲一下数据可视化。如果你想做一名数据分析师,那么掌握可视化技能是必不可少的,因为在大部分情况下,老板更关心呈现的结果。另外当这些可视化的结果呈现在你眼前时,你才能直观地体会到“数据之美”。图片在内容表达上,要远胜于文字,它不仅能体现数据真实性,还能给人很大的想象空间。数据可视化的视图都有哪些?在了解数据可视化的重要性之后,我们来看下,在数据可视化产品中,一般都包括哪些视图?我们常用的可视化视图超过 20 种,分别包括:文本表、热力图、地图、符号地图、饼图、水平条、堆叠条翻译 2021-06-20 15:06:35 · 438 阅读 · 0 评论 -
13 | 数据变换:考试成绩要求正态分布合理么?
上一讲中我给你讲了数据集成,今天我来讲下数据变换。如果一个人在百分制的考试中得了 95 分,你肯定会认为他学习成绩很好,如果得了 65 分,就会觉得他成绩不好。如果得了 80 分呢?你会觉得他成绩中等,因为在班级里这属于大部分人的情况。为什么会有这样的认知呢?这是因为我们从小到大的考试成绩基本上都会满足正态分布的情况。什么是正态分布呢?正态分布也叫作常态分布,就是正常的状态下,呈现的分布情况。比如你可能会问班里的考试成绩是怎样的?这里其实指的是大部分同学的成绩如何。以下图为例,在正态分布中,大部分人的翻译 2021-06-20 14:56:58 · 1806 阅读 · 0 评论 -
12│数据集成:这些大号一共20亿粉丝?
我们采集的数据经常会有冗余重复的情况。举个简单的例子,假设你是一个网络综艺节目的制片人,一共有 12 期节目,你一共打算邀请 30 位明星作为节目的嘉宾。你知道这些明星影响力都很大,具体在微博上的粉丝数都有标记。于是你想统计下,这些明星一共能直接影响到微博上的多少粉丝,能产生多大的影响力。然后你突然发现,这些明星的粉丝数总和超过了 20 亿。那么他们一共会影响到中国 20 亿人口么?显然不是的,我们都知道中国人口一共是 14 亿,这 30 位明星的影响力总和不会覆盖中国所有人口。那么如何统计这 30 位翻译 2021-06-20 11:26:48 · 234 阅读 · 0 评论 -
11 | 数据科学家80%时间都花费在了这些清洗任务上?
我们在上一节中讲了数据采集,以及相关的工具使用,但做完数据采集就可以直接进行挖掘了吗?肯定不是的。就拿做饭打个比方吧,对于很多人来说,热油下锅、掌勺翻炒一定是做饭中最过瘾的环节,但实际上炒菜这个过程只占做饭时间的 20%,剩下 80% 的时间都是在做准备,比如买菜、择菜、洗菜等等。在数据挖掘中,数据清洗就是这样的前期准备工作。对于数据科学家来说,我们会遇到各种各样的数据,在分析前,要投入大量的时间和精力把数据“整理裁剪”成自己想要或需要的样子。为什么呢?因为我们采集到的数据往往有很多问题。我们先看一个例子,翻译 2021-06-20 11:11:59 · 500 阅读 · 0 评论 -
10丨Python爬虫:如何自动化下载王祖贤海报?
爬虫的流程相信你对“爬虫”这个词已经非常熟悉了,爬虫实际上是用浏览器访问的方式模拟了访问网站的过程,整个过程包括三个阶段:打开网页、提取数据和保存数据。在 Python 中,这三个阶段都有对应的工具可以使用。在“打开网页”这一步骤中,可以使用 Requests 访问页面,得到服务器返回给我们的数据,这里包括 HTML 页面以及 JSON 数据。在“提取数据”这一步骤中,主要用到了两个工具。针对 HTML 页面,可以使用 XPath 进行元素定位,提取数据;针对 JSON 数据,可以使用 JSON 进翻译 2021-06-20 07:06:21 · 274 阅读 · 0 评论 -
09丨数据采集:如何用八爪鱼采集微博上的“D&G”评论
八爪鱼的基本操作在开始操作前,我先来介绍下今天要讲的主角“八爪鱼”工具。相比使用 Python 进行爬虫,八爪鱼的使用更加简便,因为是所见即所得的方式,基本上不需要编写代码,除了在正则表达式匹配的时候会用到 XPath。这里简单介绍下 XPath,XPath 的英文是 XML Path Language,也就是 XML 的路径语言,用来在 XML 文件中寻找我们想要的元素。所以八爪鱼可以使用 XPath 帮我们更灵活地定位我们想要找的元素。自定义任务 VS 简易采集如果你想要采集数据就需要新建一个任务,在建翻译 2021-06-20 06:40:08 · 6065 阅读 · 2 评论 -
08 | 数据采集:如何自动化采集数据?
上一节中我们讲了如何对用户画像建模,而建模之前我们都要进行数据采集。数据采集是数据挖掘的基础,没有数据,挖掘也没有意义。很多时候,我们拥有多少数据源,多少数据量,以及数据质量如何,将决定我们挖掘产出的成果会怎样。举个例子,你做量化投资,基于大数据预测未来股票的波动,根据这个预测结果进行买卖。你当前能够拿到以往股票的所有历史数据,是否可以根据这些数据做出一个预测率高的数据分析系统呢?实际上,如果你只有股票历史数据,你仍然无法理解股票为什么会产生大幅的波动。比如,当时可能是爆发了 SARS 疫情,或者某地区翻译 2021-06-20 06:12:39 · 2959 阅读 · 0 评论 -
07 | 用户画像:标签化就是数据的抽象能力
王兴说过,我们已经进入到互联网的下半场。在上半场,也就是早期的互联网时代,你永远不知道在对面坐的是什么样的人。那个年代大部分人还是 QQ 的早期用户。在下半场,互联网公司已经不新鲜了,大部分公司已经互联网化。他们已经在用网络进行产品宣传,使用电商销售自己的商品。这两年引领下半场发展的是那些在讲 “大数据”“赋能”的企业,他们有数据,有用户。通过大数据告诉政府该如何智慧地管理交通,做城市规划。通过消费数据分析,告诉企业该在什么时间生产什么产品,以最大化地满足用户的需求。通过生活大数据告诉我们餐饮企业,甚至房地翻译 2021-06-20 05:53:26 · 342 阅读 · 0 评论 -
06 | 学数据分析要掌握哪些基本概念?
美国明尼苏达州一家 Target 百货被客户投诉,这名客户指控 Target 将婴儿产品优惠券寄给他的女儿,而他女儿还是一名高中生。但没多久这名客户就来电道歉,因为女儿经他逼问后坦承自己真的怀孕了。Target 百货寄送婴儿产品优惠券绝非偶然之举,他们发现妇女在怀孕的情况下,购买的物品会发生变化,比如护手霜会从有香味的改成无味的,此外还会购买大量维生素等保健品。通过类似的关联分析,Target 构建了一个“怀孕预测指数”,通过这个指数预测到了顾客已经怀孕的情况,并把优惠券寄送给她。那么顾客怀孕与商品之间的关原创 2021-06-19 22:56:23 · 256 阅读 · 0 评论 -
02学习数据挖掘的最佳路径是什么?
上一节中,我给你分享了数据分析的全景图,其中最关键的部分就是数据挖掘,那什么是数据挖掘呢?想象一下,茫茫的大海上,孤零零地屹立着钻井,想要从大海中开采出宝贵的石油。对于普通人来说,大海是很难感知的,就更不用说找到宝藏了。但对于熟练的石油开采人员来说,大海是有坐标的。他们对地质做勘探,分析地质构造,从而发现哪些地方更可能有石油。然后用开采工具,进行深度挖掘,直到打到石油为止。大海、地质信息、石油对开采人员来说就是数据源、地理位置、以及分析得到的结果。而我们要做的数据挖掘工作,就好像这个钻井一样,通过分析这些数翻译 2021-06-19 22:40:57 · 158 阅读 · 0 评论 -
当我们谈论数据分析的时候,都在讲些什么呢?
当我们谈论数据分析的时候,都在讲些什么呢?这里我可以把数据分析分成三个重要的组成部分。数据采集。它是我们的原材料,也是最“接地气”的部分,因为任何分析都要有数据源。数据挖掘。它可以说是最“高大上”的部分,也是整个商业价值所在。之所以要进行数据分析,就是要找到其中的规律,来指导我们的业务。因此数据挖掘的核心是挖掘数据的商业价值,也就是我们所谈的商业智能 BI。数据可视化。它可以说是数据领域中万金油的技能,可以让我们直观地了解到数据分析的结果。下面我来一一为你讲解一下这三个重要的部分。数据采集在数据采集部分中,原创 2021-06-17 19:59:12 · 280 阅读 · 0 评论 -
Pandas中iloc/loc/ix区别
大家好,在使用pandas进行数据分析过程中,回想一下你是怎么对一个数据集进行数据切片,是不是百度:pandas如何提取第x行数据,然后根据一堆结果找到一个能用的就完事了,那么你一定会迷失在pandas中的切片函数:.iloc()、.loc()、.ix()中,本文就是为了解决这个问题,通过一个简单的DataFrame彻底搞明白这三个函数到底有什么区别,又该怎么使用。 首先我们创建一个DataFrame用于讲解data = {'a':[11,22,33,44], 'b':['a..转载 2021-05-31 22:24:44 · 561 阅读 · 0 评论 -
pandas中sample方法简介
1 数据切片选取1.1 pandas.DataFrame.sample 随机选取若干行1.1.1 功能说明 有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。pandas中自带有抽样的方法。功能相似:numpy.random.choice Generates a random sample from a given 1-D numpy array.1.1.2 使用说明1. 函数名及功...翻译 2021-05-25 13:07:38 · 4882 阅读 · 1 评论