
笔记
文章平均质量分 84
Paper易论
AIGC 前沿技术的翻译者与引路人
展开
-
这样的开源方式,你喜欢吗?
今天要来说一说一本书,《Python预测之美 : 数据分析与算法实战》。没错,就是这本,或者你可以叫它 “熊猫书”。这是一本讲预测的书,对,科学预测,正儿八经,不是玄学预测。这是一本讲数据分析的书,相关分析、关联、聚类等这些基础算法都知道一些吧,没错,书里都有,还有讲解因果分析原理和实战的案例,只讲理论,不拿code来折腾的书都在耍流氓。这是一本讲算法的书,虽然现在借助于 数据+算力,算法日新月异,不断推陈出新,但是基本原...原创 2021-05-11 13:26:07 · 659 阅读 · 2 评论 -
数据分析案例:预测乳腺癌是否复发
医院有78条乳腺癌病人的数据,这些病人经过治疗,其中34位5年内病情复发,另外44位5年内未见复发,现需要对19位经过治疗的病人,分析其在5年内是否会复发,并评估模型的准确性及可行性。数据说明 训练数据包含78位乳腺癌病人样本,他们中的34位5年内病情复发(标记为relapse),另外的44位至少在5年内未复发(标记为non-relapse)。相应地,这里有12位复发,7位未复发的病人样本在测试集中。使用到的基因数量为24481。LDA降维 由于维度太多,直接参与计算,...原创 2020-07-18 19:48:55 · 1019 阅读 · 0 评论 -
使用Scrapy,帮你快速抓取网页数据(代码可下载)!
Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网站数据、提取结构性数据以及各种图片,非常方便。Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。尽管Scrapy原本是设计用来屏幕抓取(更精确的说,是网络抓取),但它也可以用来访问API来提取数据。如何安装?打开网站:https://www.lfd.uci.edu/~gohlke/pythonlibs/在这...原创 2020-07-18 19:41:57 · 2002 阅读 · 0 评论 -
《Python预测之美》送书活动,中奖名单公示
首先,感谢参加新书《Python预测之美》送书活动的朋友。本次活动从7月9日开始,历时5天,于今天早上8点5分准时开奖。共有5名幸运嘉宾中奖。名单如下:解释权归 “ 活动抽奖 ” 微信小程序请中奖的朋友,及时填写收货地址,新书将于本周内寄到你手上。 另外,本公众号,将陆续推文对《Python预测之美》的内容进行深度剖析,各位对这本书的任何疑问均可在公众号留言,作者会及时处理。我们后面还会不定期举办送书活动,欢迎关注!...原创 2020-07-14 09:08:50 · 443 阅读 · 1 评论 -
《Python预测之美》送书活动,拿走不谢~
这是一本什么样的书? -以Python语言为基础,配合原理、方法、案例进行讲解 - 专注预测专题,体系化介绍预测技术工程实施的必备技能 - 深度剖析预测原理,细致解读数据分析算法这本书长啥样? Panda-熊猫Pandas是Python中一个重要的分析库,我们用它来完成数据科学的一些任务。本书主要内容 Python是一种面向对象的脚本语言,其代码简洁优美,类库丰富,开发效率也很高,因此,得到越来越多开发者的喜爱,广泛应用于Web开发、网络编程、爬虫开...原创 2020-07-10 13:17:28 · 2346 阅读 · 0 评论 -
基于Python实现相关分析案例
节选自《Python预测之美:数据分析与算法实战》。相关关系是一种非确定的关系,就好像身高与体重的关系一样,它们之间不能用一个固定的函数关系来表示。而相关分析就是研究这种随机变量间相关关系的统计方法。此处,主要探讨不同特征对研究对象的相关性影响。常见进行相关分析的方法,主要有散点图和相关图。1.散点图 散点图就是数据点在直角坐标系上的分布图,通常分为散点图矩阵和三维散点图。其中散点矩阵是由变量两两组合由数据点分布图构成的矩阵,而三维散点图就是从所有变量中选择三个变量进行绘制,进一...原创 2020-07-09 22:06:35 · 2312 阅读 · 1 评论 -
新出版书籍《Python预测之美:数据分析与算法实战》,送书活动!参与即可机会,获得一本实体书,中奖后可填写地址寄送。
原创 2020-07-09 10:49:13 · 1308 阅读 · 1 评论 -
JupyterLab最全详解,如果你还在使用Notebook,那你就out了!
Jupyter源于Ipython Notebook,是使用Python(也有R、Julia、Node等其他语言的内核)进行代码演示、数据分析、可视化、教学的很好的工具,对Python的愈加流行和在AI领域的领导地位有很大的推动作用。 Jupyter Lab是Jupyter的一个拓展,它提供了更好的用户体验,例如可以同时在一个浏览器页面打开编辑多个Notebook,Ipython console和terminal终端,并且支持预览和编辑更多种类的文件,如代码文件,Markdown文档,j...原创 2020-07-03 18:09:57 · 28911 阅读 · 3 评论 -
入门Python,看这一篇就够了,史上最全的Python基础语法知识清单!
Python崇尚优美、清晰、简单,是一个优秀并广泛使用的脚本语言。Python可以应用于众多领域,如:数据分析、组件集成、网络服务、图像处理、数值计算和科学计算等众多领域。目前业内几乎所有大中型互联网企业都在使用Python,如:Youtube、Dropbox、BT、Quora(中国知乎)、豆瓣、知乎、Google、Yahoo!、Facebook、NASA、百度、腾讯、汽车之家、美团等。发展历史 Python的作者,Guido von Rossum(吉多·范·罗苏姆...原创 2020-06-29 07:45:44 · 842 阅读 · 0 评论 -
数据科学中的五种认知偏差,你都了解吗?
我们每个人都容易受到歪曲思维的认知偏见所带来的伤害,但是,数据科学家必须防止这些偏见破坏他们的工作。下文将介绍五种常见的认知偏差,这些偏见很容易让你看起来很客观的工作变得非常主观。 最近,我在读罗尔夫·多贝尔(Rolf Dobell)的《清晰思考的艺术》(The Art of Thinking Clear),这本书让我以一种前所未有的方式思考认知偏见。我意识到一些认知偏见是多么地根深蒂固。事实上,当我们的思维受到它的影响时,我们通常没有意识到。对数据科学家来说,这些偏见确实会改变我们处理数据...原创 2020-06-26 20:49:22 · 1310 阅读 · 0 评论 -
2020年使用最多的大数据分析工具
众所周知,数据是当今 IT 领域的一切。此外,这些数据每天都在大量增长。早些时候,我们常谈论千字节和兆字节。但是现在,我们谈论的是TB、PB。单纯的数据是没有意义的,直到它变成有用的信息和知识,进而帮助管理层进行决策。为此,我们在市场上调查了一些常用的大数据软件。这些软件可用于完成对数据进行存储、分析、报告等工作。15款使用最多的大数据分析工具下面介绍了一些常用的开源工具和很少有付费的商业工具(提供了免费试用版)。让我们详细了解每款工具。一、Apache Hadoop...原创 2020-06-26 19:22:45 · 1104 阅读 · 0 评论