
Python数据分析
Python数据分析
咕噜咕噜day
day day up!
展开
-
笔记:Scrapy 爬取豆瓣电影Top250
目标:用哪个Scarpy抓取豆瓣电影Top250的名称 主演 上映时间等,保存为csv json txt 等格式 最后保存到mondo数据库中,并用Robo 3T或NoSQL Manager for MongoDB操作查看链接:https://movie.douban.com/top250步骤:1.新建项目:新建project,spider2.明确目标:在Items中定义保存电影名...原创 2018-08-09 17:41:10 · 896 阅读 · 0 评论 -
Ajax爬取今日头条
今日头条爬取街拍图(动态页面抓取逆向解析实例)链接:https://www.toutiao.com/ 目标:爬取今日头条街拍图高清图集 目标网站分析:(索引页分析)1.进入页面,滑下鼠标,发现新的页面不断加载容易知道图集索引页的网页是由后台ajax数据通过js渲染成的,由动态页面解析的逆向思路,在Network的选项卡的XHR栏目,发现随着新页面不断加载,新的...原创 2018-08-13 10:52:30 · 1228 阅读 · 0 评论 -
Selenium抓取淘宝商品信息
selenium抓取淘宝商品信息(动态页面抓取selenium实例)目标:爬取前100页淘宝美食信息淘宝链接:思路:很明显淘宝网页使用的是动态网页,需要爬取前100页美食的信息,可以分为两步第一步:抓取第一页美食内容然后再调用提取美食信息的函数第二步:抓取下一页美食内容然后再调用提取美食信息的函数备注:1.Python字典items()方法用于返回字典dict的(key...原创 2018-08-13 20:39:12 · 660 阅读 · 0 评论 -
pytorch TensorboardX 画Loss曲线 和 attention图
def test_2(): writer1 = SummaryWriter('./runs/data_loss') writer2 = SummaryWriter('./runs/png') attns_en = [] step = 199 for i in range(3): attns_en.append(torch.randn([5...原创 2019-10-08 23:00:27 · 2082 阅读 · 0 评论 -
06 | 数据分析要掌握的基本概念
Apriori 算法 商业智能 BI(Business Intelligence)、数据仓库 DW(Data Warehouse)、数据挖掘 DM(Data Mining) 三者之间的关系: 百货商店利用数据预测用户的购物行为属于商业智能,他们积累的顾客的消费行为会存储在数据仓库中,通过对个体进行消费行为分析总结出来的规律属于数据挖掘。 元数据:描述其他数据的数据,比如书本上的书名...原创 2019-02-22 14:20:16 · 184 阅读 · 0 评论 -
05丨Python科学计算:Pandas
知识清单:数据结构:Series和DataFrame这两个核心的数据结构,分别代表一维和二维的表结构。基于这两种数据结构可以对数据进行导入,清洗。处理,统计和输出。 Series:Series是个定长的字典序列。两个基本属性:index和values。默认是0,1,2....当然也可以自己指定索引。DataFrame:包括行索引和列索引,可以将DataFrame看成是由相同索引的Se...原创 2019-02-22 14:10:39 · 208 阅读 · 0 评论 -
04丨Python科学计算:用NumPy快速处理数据
知识清单:杂:python中list中得元素可以是任意值,python中list元素在系统内是分散存储得,而Numpy数组存储在一个均匀连续得内存块中,数组计算遍历所有的额元素,而list还需要对内存地址进行查找,可以节省计算资源, 在内存访问模式里面,缓存会把字节块从RAM加载到CPU寄存器中,因为数据连续的存储在内存中,Numpy可以直接利用现在的CPU得矢量化指令计算,加载寄存...原创 2019-02-22 13:53:23 · 295 阅读 · 0 评论 -
03丨Python基础语法:开始你的Python之旅
知识清单:杂: python 是C语言写的但是摒弃了C语言中的指针;如果注释中有中文,一般代码前加# -- coding:utf-8;import实质是路径探索 刷题进阶的网站:http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemId=1 工具库: 数据科学领域:科学计算工具Numpy Pandas...原创 2019-02-21 22:39:17 · 227 阅读 · 0 评论 -
02丨学习数据挖掘的最佳路径
数据挖掘知识清单 :数据挖掘基本流程(6个步骤): 商业理解:从商业的角度理解项目需求,再对数据挖掘的目标进行定义,就是搞清楚自己这个项目的确切的意义和目标。 数据理解:对部分数据进行探索理解,使得你对于你收集到的数据有一个初步的认知。 数据准备:搜集源数据,并对数据进行清洗 数据集成等操作即预处理过程 模型建立:选择合适的数据挖掘模型,并按实际的优化,得到...原创 2019-02-21 22:22:59 · 230 阅读 · 0 评论 -
01 | 数据分析全景图及修炼指南
数据分析三个部分:数据采集:例如八爪鱼等自动抓取工具:数据挖掘:核心是挖掘数据的商业价值,也就是我们所谈的商业智能BI知道基本流程,十大算法,以及背后的数学基础,eg关联分析,Adaboost算法等数据可视化 第一种方法使用Python调用Matplotlib,Seaborn等第三方库实现第二种方法使用第三方工csv格式-微图 DataV DataGIFMaker等工...原创 2019-02-21 22:14:37 · 247 阅读 · 0 评论