
数据分析
Do.it
日常分享学习上遇到的各种问题和案例。
展开
-
你还不知道大数据?
背景:12月份有的同学参加了新工联盟一级的测评考试,一级的内容主要是包括一些计算机基础、大数据基本知识、数据操作和处理、数据分析方法和数据可视化方法,今天就简单分享其中一部分内容(持续更新)。一、大数据定义定义:对于“大数据”(Big data)研究机构Gartner给出了这样的定义。它是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。通俗点:无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。二、大数据基本特征特征:大数据有五原创 2020-12-03 15:45:18 · 729 阅读 · 0 评论 -
基本数据统计方法
背景:12月份有的同学参加了新工联盟一级的测评考试,一级的内容主要是包括一些计算机基础、大数据基本知识、数据操作和处理、数据分析方法和数据可视化方法,今天就简单分享其中一部分内容(持续更新)。一、中心位置1.众数2.中位数3.均值二、分散程度1.方差2.极值三、分布程度1.偏度2.峰度...原创 2020-12-03 15:02:44 · 2453 阅读 · 0 评论 -
简洁机器学习方法
背景12月份有的同学参加了新工联盟一级的测评考试,一级的内容主要是包括一些计算机基础、大数据基本知识、数据操作和处理、数据分析方法和数据可视化方法,今天就简单分享其中一部分内容(持续更新)。一、机器学习1.监督学习①理解:所谓的监督学习,就是我们首先导入包含有训练属性和目标属性的数据集,然后监督学习算法会从数据集中学习得出训练样本和其目标变量之间的关系,然后将学习到的关系对新样本(未被标记的样本)进行分类。②举例:我们可以根据学生学习时间预测考试成绩的例子,监督学习算法的目标是给出新的输入X,使得原创 2020-12-03 14:15:06 · 216 阅读 · 0 评论 -
微博热搜榜动态演示
背景:我们知道基于网络爬虫,网页抓取需要考虑很多网页加载的方式来选择合适的爬取方法,但是微博热搜榜我们发现在网页源代码中就可以轻松获得 热度其和热搜内容。今天就尝试着利用网络爬虫和可视化进行动态演示。一、准备工作1.打开微博热搜榜单网址查看热搜榜单内容和热度。https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=62.选择开发者工具选择查看源代码,选择Network刷新页面获得相应内容,这里选择第一个请求查看Resp原创 2020-11-13 11:01:19 · 724 阅读 · 0 评论 -
数据分析思维模式(下)
七、远近度思维很多管理层的人员他们往往手握众多数据和报表,但是注意力却是非常的跳跃和分散。通过相关思维,找到最核心的问题和指标;或者建立远近度的思维方式。确定好核心问题后,还要分析其他业务问题与该核心问题的远近程度,由近及远,然后有计划地分配精力。八、测试/对比思维AB TEST,一是在条件允许的情况下,决策前尽量做对比测试;二是测试时,一定要注意参照组的选择,举个例子,A大多是已经在线的一个产品,而B是一个我们将要上线的另一版本的产品,直接通过B去替换A可能用户一下子接收不了,所以我们会切部分用原创 2020-10-24 12:37:28 · 561 阅读 · 0 评论 -
数据分析思维模式(上)
我们知道做数据分析,或者说不管是做什么工作,一个人的思维往往起着非常重要的作用,它就像一种武器可以让你在“战场”上驰骋沙场!一、分类思想所谓分类受原创 2020-10-22 22:23:49 · 1238 阅读 · 0 评论 -
北京二手房价预测(数据分析)
分析目的:简单地介绍一个数据分析的初级项目,熟悉使用Python进行简单的数据分析的初级过程。数据源:来及网络链接的链家全网北京二手房数据,读者可以从百度云盘中复制链接和提取码获取,进行动手实践。链接:https://pan.baidu.com/s/18R24WTkZIOFH_qvaWjixOw提取码:61bp一、数据初步认识:需要导入要使用的机器学习包Sklearn和科学计算包Numpy,Pandas,可视化Matplotlib,Seaborn。...原创 2020-10-22 17:58:27 · 3419 阅读 · 3 评论 -
Pycharm输出中间数据被省略解决方法
Pandas库是Python提供的一个非常好用的数据分析模块,我们经常通过网络爬虫爬取的大量DataFrame数据行数或者列数比较多的时候,在打印结果中被省略,不能完整的看到数据的大致分布,所以需要解决输出的限制,进一步了解数据分布的区间有助于进行可视化和进一步数据分析。如图所示:可以通过pandas内置的set_option()方法解决,其实与显示的行数列数有关的选项主要是[display]中的[max_columns,colwidth,line_width等这几项,所以只需要将这几项属性值设置得大原创 2020-10-21 21:03:18 · 3205 阅读 · 0 评论