[01]Python爬虫
爬虫知识与实践
lrzbupt
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
#12.1Python爬虫的进阶之路---百度贴吧漫画资源爬取
代码 #coding:utf-8 import os import re import requests import urllib import json from bs4 import BeautifulSoup as BS class urlmanager(object): def __init__(self): self.new_urls = set() self.old_urls = set() def add_new_urls(self, url原创 2020-05-20 10:43:43 · 245 阅读 · 0 评论 -
#14 Python爬虫的进阶之路---数据库介绍
SQL语法 两个部分:数据定义语言(DDL)和数据操作语言(DML) 前者用于创建或删除表格,定义索引,规定链接,施加约束 后者用于增删改查 SQL语法对大小写不敏感 primary key 关键词DISTINCT 加在 SELECT之后,用于合并重复值 有条件查找用到where子句 还可以使用and与or以及括号进行合并查找 排序则需要用到ORDER BY语句,默认按照ASC升序,可以改为...原创 2020-05-14 17:18:46 · 284 阅读 · 0 评论 -
#14.1 MongoDB的安装与简单介绍
MongoDB的下载 MongoDB官网提供了免费的下载地址:https://www.mongodb.com/download-center/community,但下载速度较慢 若需要快速下载,可以使用以下链接:http://www.mongodb.org/dl/win32 一般根据系统选择最新版的msi文件进行下载;官网一般会推荐适合的版本,点击download后进入下一个界面,不需要填任何东西,自动开始下载,但因连接网速问题可能会有延迟。 Windows安装MongoDB与配置 下载完成后,点击msi进原创 2020-05-13 16:15:36 · 166 阅读 · 0 评论 -
#12 Python爬虫的进阶之路---多媒体文件抽取,存储,邮件与爬虫基本构成
无数据库存储 JSON python利用json模块对json进行编码和解码 编码使用函数dump和dumps dump将python对象编码为json对象并存入fp指定文件;dumps将python对象生成字符串。 dumps(obj, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None...原创 2020-05-06 11:40:31 · 386 阅读 · 0 评论 -
#11 Python爬虫的进阶之路---BeautifulSoup
Python包的镜像安装 在使用pip或conda进行库安装时,由于使用海外服务器下载数据慢,我们可以选择使用国内的镜像站,本文以使用清华镜像源为例 #临时使用镜像源 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package #将镜像源设为默认 #首先升级pip到高于10.0.0版本 pip install -i ht...原创 2020-04-09 17:36:23 · 250 阅读 · 0 评论 -
#10 Python爬虫的进阶之路---HTML解析正则表达式
元字符 \b是一个常用的元字符,他代表一个位置,用于指示单词的开始或结束。如我们想要寻找we,忽略大小写我们可能匹配到we,We,Welcome等位置,而\bwe\b则限定了寻找we而不是一个单词中的一部分。 如果我们想要匹配两个单词之间的所有字符呢?可以使用以下方法:\bwe\b.*\bus\b实现了匹配we与us之间的所有字符。其中.表示除换行符外的任意字符,*表示任意长度。 举例:文本we...原创 2020-04-08 17:01:29 · 287 阅读 · 0 评论 -
#8:Python爬虫的进阶之路---HTTP
HTTP请求过程 请求响应模型,客户端发起请求,服务器回应请求。 无状态协议。同一客户端两次请求相互独立。一次HTTP操作称为一个事务,执行过程分四步: 建立连接,如单击某个超链接 客户端发送请求,请求格式:统一资源标识符(URL)、协议版本号、MIME信息(包括请求修饰符、客户机信息和可能的内容) 服务器收到请求,给予响应信息,格式为一个状态行,包括信息协议版本号、一个成功或错误代码,MIM...原创 2020-03-31 18:36:20 · 177 阅读 · 0 评论 -
#7:Python爬虫的进阶之路---XPath与JSON
XPath XPath是一门在XML中查找信息的语言,用于XML和HTML中通过元素和属性进行导航。 XPath节点 XPath将XML文档视为节点树,包括七种类型节点:元素,属性,文本,命名空间,处理指令,注释,文档(根)节点。 <?xml version="1.0" encoding="ISO-8859-1"?> <classroom> <student&...原创 2020-03-31 10:22:01 · 247 阅读 · 0 评论 -
#6:Python爬虫的进阶之路---Web前端行为语言JavaScript
JavaScript的脚本可以利用以下两种方式被使用: 1)直接利用<script type="text/JavaScript"></script>包裹后放入任何地方,不过一般常常放在head中; 2)引用外部代码以减少多次使用时的代码量,<script src=".js"></script> 基本语法 区分大小写,在包括变量名在内的任何地方...原创 2020-03-31 08:54:36 · 168 阅读 · 0 评论 -
#5:Python爬虫的进阶之路----CSS
CSS指层叠样式表(Cascading Style Sheets),定义HTML元素的表现形式.一般有三种做法: 1)内联,直接插入到HTML的标记中,直接使用style改变样式,如<body style="background-color:green;"> 2)嵌入式,将CSS信息写在<head></head>之间以<style type="text...原创 2020-03-26 16:35:47 · 412 阅读 · 0 评论 -
#4Python爬虫的进阶之路---Web前端与HTML
HTML结构 表格属性 <!DOCTYPE html> <html lang="zh-CN"> <head> <meta charset="UTF-8"> <title>Title</title> </head> <body> ...原创 2020-03-26 10:47:26 · 130 阅读 · 0 评论 -
#3Python爬虫的进阶之路----网络编程
TCP编程 分为服务端与客户端; 创建运行服务端需要五个步骤: 1)创建socket并绑定到本地IP与端口; 2)开始监听链接; 3)进入循环,不断接受连接请求; 4)接收传来的数据,并发送给对方数据; 5)传输完毕后,关闭socket; # coding:utf-8 import time, random import threading import socke...原创 2020-03-25 10:49:11 · 166 阅读 · 0 评论 -
#2:Python爬虫进阶之路---进程与线程
多进程 os模块中的fork 仅适用于Unix/Linux系统; multiprocessing模块跨平台. 多线程 协程 分布式进程原创 2020-03-23 17:40:59 · 165 阅读 · 0 评论 -
#1:Python爬虫进阶之路---文件与序列化
文件打开与关闭: f=open(r'文件路径','模式选择r/w/a/b/+') f.close() 文件读取与写入: f.read() 一次性将文件读入内存 f.read(size) 文件过大可指定字节大小依次读取 ...原创 2020-03-15 23:13:10 · 178 阅读 · 0 评论
分享