- 博客(6)
- 收藏
- 关注
原创 大数据揭秘: 原来单身女生有这些特点...
据媒体报道,中国目前的单身成年女性的数量已经超过一个多亿,也就是说14.3%的成年女性处于单身状态,与日本全国人口总数基本相当。知己知彼,百战不殆。如果你是一个单身女性,你可以看到自己的某些影子;如果是单身男生,你需要了解目标人群的特点;如果是已婚男士,要相信“天下凤凰一般美!!!”开始本文之前有几点说明:1、本文数据主要来自于某婚恋网站的爬虫搜索数据;2、该网站上的女生默认为单身...
2018-10-09 22:46:06
333
原创 基于Scrapy架构的网络爬虫入坑第三战(爬取某网站**头像到本地)
一、前言在Internet surfing的时候,经常会有这样的感叹:有些图片能自动保存到本地多好!省去右键另存为的麻烦,而且可以批量操作。比如这样:比如这样:二、方法首先观察网站涉及头像的源码,发现头像的网络地址在class = 'pic'的style中,截图如下:而后想到借助最近一直摸索的Scrapy架构,写一个爬虫程序:先定位到用户主页,利用urllib....
2018-10-08 20:51:15
257
原创 基于Scrapy架构的网络爬虫入坑第二战(数据存入MySQL)
第一战中,利用Scrapy架构爬取了58租房信息,存入到json文件中。json文件虽然好用,但是结构化和后续处理方面还存在一定的缺陷。为此,决定使用结构化数据库MySQL。第二战的主要内容是:首先利用Scrapy架构爬取某个小说网站上的小说信息,而后使用MySQLdb将结构化数据存入MySQL,最后利用Navicat Premium访问存储的数据。惊世三问!!!问:MySQL是什么?...
2018-10-07 23:26:45
284
原创 基于Scrapy架构的网络爬虫入坑第一战——爬取数据而后存入json文件
谈到爬虫,必出利器Scrapy。如果说之前的爬虫借助于个人知识的野蛮生长,那么Scrapy的诞生无疑降低了万众爬虫的门槛。什么是Scrapy?一言以蔽之:它是一个基于Python语言开发的网络数据抓取的框架,任何人都可以根据需求方便的修改。Scrapy由下面几个部分组成(上图来源于网络,侵删)spiders:爬虫的主模块,主要内容包括网页的解析和内容的结构化items:定义我们...
2018-10-06 21:20:06
1539
原创 这就是江湖——浅析芯片架构演变的爱恨情仇
江湖一词源于《庄子·大宗师篇》:泉涸,鱼双与处于陆,相掬以湿,相濡以沫,不如相忘于江湖。而后在古龙武侠小说《三少爷的剑》中借杀手燕十三之言:“人在江湖,身不由己”,更成为惊世之言。诚如所言:有人的地方就是江湖,只要有人,就会有恩怨。 在这个世界上,还有一种名字叫做芯片的物种,在地球上已经与人类和谐共生了几十年。在芯片初期,仅有C帮(CISC,复杂指令集)这个天下第一帮。这个帮派的众多芯片神通广...
2018-09-09 00:14:17
647
原创 《延禧攻略》演员大起底——利用Python+bs+pyecharts分析绘制词云和玫瑰图
最近大火的电视剧《延禧攻略》已宣告大结局,除了剧情走心,演员的那些头花啊头饰啊,戏服也都精致无比。本文利用Python抓取互联网上演员的部分数据,分析演员的姓名、星座、身高、体重和籍贯等信息,利用bs+pyecharts绘制词云和玫瑰图。为什么这么闲?《延禧攻略》可以说是于正的洗白之作,没有特别的戏说,也没有异想天开的改编,在基本尊重历史事实的基础上,通过魏璎珞(令妃)的视角窥探整个后宫的...
2018-09-01 15:11:20
1338
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人