
数据挖掘与分析
本专栏由专心成为“数据分析师”的程序员土拨鼠冠名写出,如有意思,请持续关注。
云胡实验室
️
展开
-
踩实底子|每日学习|02-特征工程和文本特征提取【下】
前文说到,特征工程是为了预测结果数据的处理步骤,也简单用了一两个实例说明了文本特征的提取,其中字典特征提取和文本特征主要是将特征数据化,也就是one-hot编码。为了不让一篇博文显得长篇大论,后面两个部分的视频,就另开了一篇来记录原创 2020-11-16 16:20:30 · 464 阅读 · 0 评论 -
踩实底子|每日学习|02-特征工程和文本特征提取【上】
halo!我又来挖坑了,放着草稿箱的若干个深坑没有管,跟进这部分的学习,是为了安心毕业和强大技术栈,从应用角度再次学习机器学习。原创 2020-11-13 21:17:47 · 271 阅读 · 0 评论 -
【数据分析与挖掘】数据分析学习及跟课学习 | csdn_Part 03 编程部分 下篇
做好事要趁白天,所以上次晚上没有整理完的部分除了直接补在上篇csdn_Part 03 编程部分以外,还需要把自定义函数及爬虫部分的给补上,今天最好把笔记全部补完!好推进下一部分,虽然数据分析理论知识并不作为编程的主要思想,但是配合统计学理论,在数据处理及后续发展中还是占很重的比例,所以需要提上日程。【本篇关键词】:匿名函数、自定义函数原创 2020-03-07 15:43:25 · 476 阅读 · 0 评论 -
【爬虫计划】Scrapy框架的学习及跟课学习 | csdn_Part 05 ItemPipeline的使用
听完几首歌,开始今天的爬虫课程,这部分主要是对管道使用的介绍,本部分讲完,后面再一个综合案例就结束了,最好今天能够把这部分搞熟,包括案例的理解,可以结合前五篇一起回顾scrapy的特性和那张部件流程图。原创 2020-03-03 21:32:31 · 295 阅读 · 0 评论 -
【数据分析与挖掘】数据分析学习及跟课学习 | csdn_Part 03 编程部分 上篇
这部分跟的课是前段时间没有电脑使用平板及纸笔记得,所以主要的目的是为了将纸质笔记转为电子版,加上适当的练习,配合回顾,争取把数据分析知识基础过一遍,能够掌握最好。、原创 2020-03-03 23:30:41 · 172 阅读 · 0 评论 -
【爬虫计划】Scrapy框架的学习及跟课学习 | csdn_Part 04 Spider的使用
昨日开了三篇,一篇爬虫,一篇复习计划,一篇数据分析笔记,三篇都没完成,这篇也是拖到今天,不是因为昨天一天没干活,而是在本地听了scrapy传zhi播客的导入视频,讲解的较为细致,从scrapy的特点到内核组成,所以会另起一篇讲关于笔记和理解,今天这部分依旧是接着前面几篇。原创 2020-03-02 13:42:05 · 292 阅读 · 0 评论 -
【爬虫计划】Scrapy框架的学习及跟课学习 | csdn_Part 03 Selector选择器
接着上篇存储到本地文件后,对于规则与爬取对象的选取这部分工作放到了Selector选择器部分,可以理解为对于目标的解析方法。本节关键词:直接使用 | xpath | 正则匹配 | CSS原创 2020-02-29 18:21:32 · 243 阅读 · 0 评论 -
【爬虫计划】Scrapy框架的学习及跟课学习 | csdn_Part 02 上手Scrapy框架
根据计划,今天接着跟scrapy课程,上篇博文【爬虫计划】Scrapy框架的学习及跟课学习 | csdn_Part 01 认识Scrapy框架学到创建新项目及对于两种命令(全局命令和项目命令)的查看及使用,这部分内容跟着练习一个小的“我爱我家”的网站处理项目,重点在于获取使用的基本方法,尽量预期在今天完成四个小时的视频课,并完成三篇以内的相关博文。如有必要可进行下一步扩充,在网盘又查了一下应该...原创 2020-02-28 21:26:59 · 312 阅读 · 1 评论 -
【数据分析与挖掘】数据分析学习及跟课学习 | csdn_Part 02 数据结构基础
依旧是整理笔记的一天,纸质笔记为了简便很多东西没有完全写上,一些小练习也没跟上,再进行练习的时候好像有点问题。尽量打字熟悉吧,并且对于这方面知识可以以专业角度去深挖,不要仅限于分析的理论层面。另外数据结构基础,基于的是Python语言,其他编程语言规则略有不同,因实际使用而异。原创 2020-02-28 17:29:57 · 227 阅读 · 0 评论 -
【爬虫计划】Scrapy框架的学习及跟课学习 | csdn_Part 01 认识Scrapy框架
【引言】深夜的宁静,好像更适合学习,尤其是一个人的房间。晚上跟老朋友打了电话,谈论现在和未来。挺好的,比以前坦诚,比以前更相信努力有用。所以加上晚饭前后跟导师的讨论,包括技术栈的需要,终于对爬虫框架动手了。另:这是买数据分析挖掘课程送得五个课程之一。全课程接近四个小时,最好两天搞定,快速上手并完成项目部署基本操作。原创 2020-02-27 11:53:50 · 264 阅读 · 0 评论 -
【数据分析与挖掘】数据分析学习及跟课学习 | csdn_Part 01 数据分析介绍
2月16日,我终于按捺不住想刷技能的冲动,把优快云新尝试购入的数据课给打开了,以下及后面笔记皆为优快云学院课程《零基础搞定Python数据分析》,前期设备的问题,平板和纸笔的方式完成了前面八章的课程,为了便于后期整理,这里就不按照课程的章节来分博文转换笔记,直接按照Part部分,引入,基础,关键核心,应用,计算,实践这几个部分来整理。同时,将纸质笔记输入的同时,使用编译器完成部分练习,有源码则...原创 2020-02-26 12:30:23 · 243 阅读 · 0 评论 -
【实习准备】开年要有好迹象,牛客网校招题第一刷-搜狐畅游2020校招笔试-数据分析师
新年伊始,掐指一算。猛地发现距离需要实习的日子不远了,排除掉留校读博的秃头机会,大概率北上南下去面向工资找工作。所以大概还有五六个月,只是大概,按照真正拥有的时间,其实最多三个月,因为校招实习的机会需要提前拥有实力来准备,所以原意是想每天刷一套校招笔试题来磨(da)练(ji)自我,光练习不回顾的话很容易遗忘,所以前事不论,也就是在学校做的部分先不管,从今天开始,最好每天抽一部分时间出来做,然后用博...原创 2020-01-19 17:26:18 · 982 阅读 · 4 评论 -
【数据分析与挖掘】数据分析学习及实践记录 | part 06-numpy中的nan和常用方法
回顾到九月初,学到数据分析部分的05,开始中断走自然语言处理部分的内容。对于未挖完的坑来说,接下来的部分应该不算很难,争取后面几天把这部分更完。接上之前部分的并不难,比如主要是重新打开jupyter,然后开启课程。这个时间上可能今天还是不够,那就只学一部分。数组的拼接,主要是先完成数据的输入进行拼接练习,左侧是老师的,右侧是我的。再就是数组中的行列的交换。...原创 2019-12-25 20:21:36 · 124 阅读 · 0 评论 -
【读 深入浅出数据分析】 一日一章 读书第三天 第三章-最优化:寻找最大值
暑假定下来的发展方向,说用七八九三个月把数据分析的课程跟完,完成一个项目。其实掉到别的数据坑去了,所以在丢票风波稍平息后,入手了这本《深入浅出数据分析》。总13章节三个附录,预计有效读书十五天,十篇有效笔记。预计老规矩,先放豆瓣评分,然后按照重点部分总结然后加上自己的笔记练习。前面两章的学习近乎没有操作电脑的,都是关屏读书,所以等到二遍阅读时候再补笔记,这里从第三章开始。前面两部分是...原创 2019-12-17 16:19:59 · 360 阅读 · 0 评论 -
【数据分析】初识R,走向技能树的一步(内附详细下载安装说明)
因为组里位置从五楼搬到了三楼,没来得及去占座的我刚好赶上最后一波搬东西。所以正好从帮忙清洁的阿姨手里捡回几本看起来有意思的书,比如Hadoop实战,Hive编程指南,还有R语言实战,这本是同门一起带回来的。哈哈哈有点开心,毕竟图灵系列的书是真的很贵。然后接着自己买的深入浅出数据分析那本,觉得可以对R语言下手了。果然照着那本的附录,把R语言下下来安装好。下载好以后,桌面出现两个图标...原创 2019-12-12 21:13:56 · 149 阅读 · 0 评论 -
【数据分析与挖掘】数据分析学习及实践记录 | part 05-numpy读取本地数据和索引
有一个人,好久不更博,就没有动力学习。今天继续,numpy的操作学习。01numpy读取本地数据介绍numpy之前,先介绍一下轴的概念。我是个没有感情的截图机器吗?居然没有笔记一直放截图。其实是因为老师就是在用图讲解,相较于我的理解来说,看老师的图更加清晰。所以就直接放图了。差不多九点四十了,先回家,明天,或者后天再更新。...原创 2019-09-07 21:34:26 · 164 阅读 · 0 评论 -
【数据挖掘与分析】python网络爬虫学习及实践记录 | part 04-数据存储 【json vs CSV vs excel】
经历了一个星期的实习和半个星期的休假,回复到正常的云胡实验室生活来。每日学习才是正常的作息,前面每天下班回家后还是有练习代码,虽然博文更新的慢,而且没有开新的帖子,有每天坚持在GitHub上更新练习情况。之前卡在数据解析部分,前十个,从跟随式,到自己思考,爬取老师示范讲解的不同部分的内容,再到拿到先自己分析,在思考方式上有比较大的进步。花费的时间也有些长了,好在,回归实验室生活后。解析老师的任务,...原创 2019-08-16 14:41:24 · 255 阅读 · 0 评论 -
【数据挖掘与分析】python网络爬虫学习及实践记录 | part 05 爬虫进阶
数据说好的996!少一天都不行,赶完杂活儿,就来更第五部分了。1-多线程概念和threading模块介绍老师先介绍了多线程爬虫,通过资源使用效率提高系统效率。类比火车车厢,进程为火车,离开车厢的火车无法跑动。threading模块: python中用作 多线程编程的模块 常用类-Thread具体使用方法见代码范例:#encoding:utf-8#from ruby ...原创 2019-08-17 21:38:40 · 217 阅读 · 0 评论 -
【数据分析与挖掘】数据分析学习及实践记录 | part01-数据分析介绍和环境安装
python入门部分学习完后,进阶部分的进度太慢了,小姐姐还是嫌弃我的速度。分析了一下现在手头上的任务发现,需要爬取的初批数据下一步可能是手工处理,暂时进阶的知识用不上,所以先搁几天,把这部分数据分析工具先get到手再说。于是,老规矩,先放学习内容,再分章节部分更博。之前跟的是 25 python网络爬虫部分,29的数据挖掘篇主要是实战,把这个下面部分10个内容过了一遍就可以动手实践了,...原创 2019-08-28 21:51:27 · 250 阅读 · 0 评论 -
【数据挖掘与分析】python网络爬虫学习及实践记录 | part01-爬虫前奏
拖拖拉拉终于开了新坑,三月份就下好的资料一直拖到现在才动手实践,充分说明懒拖本质,再谴责下去没有意义,交代一下学习方式,每日跟视频做笔记,上手实战代码,复盘梳理。论文点及选体量目标合适的小练手项目。争取六月底前,更完这波视频吧。1.爬虫前奏: ·爬虫案例:搜索引擎(爬别人的网页-收录)/伯乐在线(爬别人的文章)/惠惠购物助手(爬取历史价格-进行对比)/数据分析与研究(各行业趋势)/...原创 2019-06-03 15:23:04 · 364 阅读 · 0 评论 -
【数据挖掘与分析】python网络爬虫学习及实践记录 | part02-网络请求(1-5)
前面完成公众号稿子去了,所以一探头看到时间到了九点二十心里有点着急,但是今天任务必须完成。今天可能需要一些时间,天气有点晚,昨天休息的还可以,可以把这些刷完再回家。或者刷一部分,这里定一个目标-至少要刷到8.废话不多说开始。urllib库python中最基本的网络请求库-模拟浏览器行为,向指定服务器发送请求+保存返回数据·urlopen函数-python3中,用法如下:...原创 2019-06-04 21:47:15 · 232 阅读 · 0 评论 -
【数据挖掘与分析】python网络爬虫入门学习及实践记录 | part02-网络请求(6-10)
端午回家呆了几天,完全放松。收假来赶个课程汇报,所以晚上没能及时跟上学习节奏,碰巧师兄分享学习进度,为所动。考试周正好大部分课程开始结课,可以有大块的时间来学习。下面介绍一下学习目标:这篇博文会完成这部分视频的笔记和练习。6-【作业】内涵段子爬虫作业这里按照老师给的url:www.neihanshequ.com已经找不到网址了,可能是已经停止运营。所以选择天涯完成练习(http:/...原创 2019-06-12 21:26:04 · 316 阅读 · 0 评论 -
【数据挖掘与分析】python网络爬虫学习及实践记录 | part02-网络请求(11-16)
老规矩,上笔记先上视频的清单,这里截图来一张。加一波资源,因为有几天还有一点点视频没有看,索性把视频全都分类转码传上了B站,祈祷哪天有网没事干,或者梦里醒来有段代码看不懂,对着在线资源再刷一遍,虽然并没有这样的可能。但学习是一日不学手生,三日不学心慌,所以传>不传,正好已经审核成功了。这里贴出来,给有需要的小伙伴们,传送门点我。另外,最近看到一个视频,非常治愈,【卡林巴琴】《未...原创 2019-06-18 22:07:27 · 302 阅读 · 0 评论 -
【数据挖掘与分析】python网络爬虫学习及实践记录 | part03-数据解析【1-4 lxml和xpath的结合-理论部分】
六月底就开始停更新博文的原因是“期末周+疯狂忙专利”,暑假开始,今天刚好七月半,更完第二部分对urllib及request使用部分的博文,就开启了第三部分数据解析的新内容学习。第三部分主要是数据解析的内容,也就是建立在爬取数据后进行处理。数据解析三个工具-Xpath|BeautifulSoup4|正则表达式1-xpath简介以及工具安装xpath(XML Path Language) ...原创 2019-07-17 17:43:12 · 193 阅读 · 0 评论 -
【数据挖掘与分析】python网络爬虫学习及实践记录 | part03-数据解析【lxml和xpath的结合-实践部分】
针对数据解析 lxml和xpath的结合-实践部分主要是对网页上格式信息的解析,通过xpath语法定位到具体标签及内容,本篇为实践过程中做的笔记及遇到的问题。原创 2019-07-25 15:24:12 · 463 阅读 · 0 评论 -
【数据分析与挖掘】数据分析学习及实践记录 | part 02-matplotlib折线图
昨天结束环境配置和工具介绍,今天直接进入数据处理的学习。01matplotlib的基础绘图011. 学习matplotlib的两条理由:能将数据进行可视化,更直观呈现 | 使数据更加客观 更具有说服力 2.matplotlib的应用场景:公司用的不多,有专用的前端3.先讲的原因是,为了后面处理数据结果能直接展示,更激励数据的处理。...原创 2019-08-29 21:52:30 · 210 阅读 · 0 评论 -
【数据分析与挖掘】数据分析学习及实践记录 | part 03-matplotlib常用统计图
开新坑啦!之前都是晚上七点以后开始学习,今天上午把matplotlib中文显示的问题解决,就开始刷课了。第三部分开启。老规矩,先上图01绘制散点图开篇老师上手一个一周天气的练习。我跟着标注的数据来源,发现北京历史天气查询_北京历史天气预报_北京历史天气记录_北京历史气温_天气网 并没有这一串数组。只好手输入,这里数据自取,代码完善散点表细节后po出来。#三月数据y_...原创 2019-09-02 20:02:46 · 252 阅读 · 0 评论 -
【数据分析与挖掘】数据分析学习及实践记录 | part 04-numpy数组
在跟上一小节最后一部分视频的时候,太困了。趴着睡了会儿。【41:51】第一个视频真长啊。01数组的计算和数组的计算老师先介绍了一下在jupyter 中,数组练习。很快,我也跟上老师的练习,这部分之前在机器学习的课上有涉及到,对于我来说不算很难,所以我把视频加了倍速。对了,这个“numpy”的发音是 nang π ,前面 matplotlib 发音是【我没留心,等下我去翻...原创 2019-09-04 20:03:28 · 212 阅读 · 0 评论 -
【数据挖掘与分析】python网络爬虫学习及实践记录 | XX城区POI点的获取
项目需要所以尽力解决这个需求,这里主要记载及梳理解决思路,及过程中遇到的问题。网上目前有很多这样的帖子,能实现的也不少,具体跑出来结果还是需要结合多方的调试。这里先把需求梳理一下,需要用python爬取XX省XX市XX区/县级的中小学经纬度,结果csv或者json、数据库格式都暂时不计较,主要是有源数据对比,初始爬取结果应当全面,更好去筛选。目前主要的一个爬取思路是“通过百度地图API获取...原创 2019-08-19 21:05:25 · 498 阅读 · 0 评论