从零开始学习大数据爬虫笔记
文章平均质量分 81
Demon丶冷漠
高层管理者,做正确的事;中层管理者,正确地做事;执行层人员,把事做正确!这里的文章都是原版的,都是自己试过没有问题的,喜欢的可以点个关注点个赞,不喜欢的也请提提意见,我在这里谢谢大家了!仅个人意见,有问题随时沟通哦!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
第一章 python分布式爬虫打造搜索引擎环境搭建 第二节 CentOS7环境下Mysql的安装
CentOS7环境下Mysql的安装方式有很多,可以用压缩包安装,也可以在联网的情况下直接命令下载安装!此篇文章将介绍一下如何通过命令安装mysql数据库!下面的代码都是亲自实验可用的,可以方便快捷的安装mysql。第一, MySQL的安装(1)下载并安装MySQL官方的Yum Repository(大约25k的大小)wget -i -c http://dev.my...原创 2018-11-09 10:48:07 · 252 阅读 · 0 评论 -
第二章 python分布式爬虫打造搜索引擎环境搭建 第一节爬虫基础知识介绍
第一,爬虫能做什么?作用是啥?简单的介绍几种,以便于了解。1. 搜索引擎---百度、google、垂直领域搜索引擎2. 推荐引擎---今日头条3. 机器学习的数据样本4. 数据分析(如金融数据分析)、舆情分析等第二,技术选型(为什么要使用scrapy而不是requests+beautifulsoup?)1. requests和beautifulsoup都是库, scrapy...原创 2018-11-19 15:24:39 · 269 阅读 · 0 评论 -
第二章 python分布式爬虫打造搜索引擎环境搭建 第一节创建第一个scrapy项目
scrapy可以运行在python2.7、python3.3或者是更高的版本上;首先我们借用之前的知识,创建一个python环境。然后在此python环境中创建我们的scrapy项目。这里你如果不理解的可以给你们大个比方,python版本就好比是jdk,scrapy就好比Java项目,这么说你们应该能稍微理解一下两者之间的关系了,可能比喻不贴切,但应该就是这么回事。1.创建pyh...原创 2018-11-20 22:44:06 · 290 阅读 · 0 评论 -
第一章 python分布式爬虫打造搜索引擎环境搭建 第六节virtualenvwrapper的安装和使用
今天继续我们的环境搭建,今天主要要学习virtualenvwrapper的安装和使用。故此需要掌握以下知识点,virtualenvwrapper 是什么?用途是什么?如何安装?环境如何搭建?接下来的知识就是顺着这条线往下进行的。virtualenvwrapper 是什么?用途是什么?如何安装?环境如何搭建? 第一,virtualenvwrapper 是什么? vi...原创 2018-11-14 23:12:22 · 190 阅读 · 0 评论 -
第一章 python分布式爬虫打造搜索引擎环境搭建 第一节 CentOS7环境下pycharm的安装和使用
时下最流行的大数据想必大家都很耳熟了,作为程序员,我们需要不时的夯实一下自己的知识!在接下来的一个月内,我会在此记录下自己学习的点点滴滴,一来方便自己日后查看,二来给初学者提供点学习思路!坚持就是胜利,你比别人差的只是每天的点滴积累!想要开始你的学习,首先得需要一台好的电脑,然后就是安装虚拟机,最后就是Linux系统的安装!在此我选择的是CentOS7,接下来所有的操作都是在此环境上...原创 2018-11-08 22:53:33 · 671 阅读 · 0 评论 -
第一章 python分布式爬虫打造搜索引擎环境搭建 第五节vitualenv的安装和使用
要学习vitualenv需要掌握以下知识点,virtualenv是什么?用途是什么?如何安装?环境如何搭建?接下来的知识就是顺着这条线往下进行的。第一,virtualenv是什么? 简单用一句话概括就是:virtualenv 是一个隔离Python环境的工具,可以让你在同一个操作系统上建立多个不同的Python环境。如一个Python2, 另一个Python3,...原创 2018-11-13 23:39:23 · 284 阅读 · 0 评论 -
第一章 python分布式爬虫打造搜索引擎环境搭建 第三节Navicat远程连接虚拟机里mysql教程
上一节,我们已经成功安装了mysql,这一节比较简单,内容也比较少,在配置中遇到的一些问题我也将在之后的文章中给出解决和解释,一些很低级的问题,希望大家以后可以避免!第一步:打开Navicat,做连接配置,如下图所示:这里有个小插曲,就是在查IP的时候,我使用的命令是ipconfig,然后一直报错,command not found(命令找不到),后来查了很多资料,什么p...原创 2018-11-10 10:36:06 · 431 阅读 · 0 评论 -
第一章 python分布式爬虫打造搜索引擎环境搭建 第四节Centos7安装python3详细步骤
今天来讲解一下Linux系统下如何安装python3版本!众所周知,centos7自带python2.7的版本,这个版本被系统很多程序所依赖,所以不建议删除,如果使用最新的Python3那么我们知道编译安装源码包和系统默认包之间是没有任何影响的,所以可以安装python3和python2共存。第一.首先我们打开系统,查看一下系统现有的Python版本。可以使用如下命令:py...原创 2018-11-12 23:39:30 · 405 阅读 · 0 评论 -
第二章 python分布式爬虫打造搜索引擎环境搭建 第二节正则表达式的学习和编写练习
第一,正则表达式介绍1. 为什么必须会正则表达式?关于正则表达的详细介绍可查看一篇官网的技术文档! 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,...原创 2018-11-19 15:52:09 · 213 阅读 · 0 评论
分享