自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 -bash: fork: retry: Resource temporarily unavailable/Server refused to start a shell command

无法使用MobaXterm连上CentOS的Linux系统的一个普通用户按照网上的办法,第一种:在当前资源暂不可用的的环境下,使用命令ulimit -a-bash-4.1$ ulimit -acore file size (blocks, -c) 0data seg size (kbytes, -d) unlimitedscheduling priority (-e) 0file size (block

2021-10-26 14:58:49 828

原创 【笔记】慕课-Python网络爬虫与信息提取-Scrapy框架(3)

实例4 股票数据Scrapy爬虫scrapy startproject BaiduStockscd BaiduStocksscrapy genspider stocks baidu.com进一步修改spiders/目录下的stocks.py文件配置stocks.py文件修改对返回页面的处理修改对新增URL爬取请求的处理源代码:import scrapyimport reclass StocksSpider(scrapy.Spider): name = "stocks"

2021-09-23 14:57:54 243

原创 【笔记】慕课-Python网络爬虫与信息提取-Scrapy框架(2)

Scrapy命令行格式 > scrapy <command>[options][args]命令行更好自动化,适合脚本控制 Scrapy的具体命令[options][args]Scrapy的常用命令:startprojectscrapy startproject [dir]创建一个新工程genspiderscrapy genspider [options] 创建一个爬虫settingsscrapy settings [options]获得爬虫配置信息cr

2021-09-22 09:18:04 299

原创 【笔记】慕课-Python网络爬虫与信息提取-Scrapy框架(1)

Scrapy 网络爬虫原理专业爬虫框架 5+2结构爬虫框架:实现爬虫功能的一个软件结构和功能组件集合5+2结构:五个模块,两个中间件已有实现,不需要修改:ENGINE SCHEDULER 、DOWNLOADER用户编写(配置):SPIDER(入口)、 ITEM、 PIPELINES(出口)ENGINE控制所有模块之间的数据流根据条件触发事件DOWNLOADER获得请求,并根据请求下载网页SCHEDULER调度和管理所有爬虫请求中间件DOWNLOADER MIDDLEWARE

2021-09-18 09:31:18 222

原创 【笔记】慕课-Python网络爬虫与信息提取-re库(4)

对笔记:re库(3)中的代码进行优化提高用户体验:加快爬虫速度(scrapy库)使用requests库和beautifulsoup库难以大幅提高速度提高速度:使用r.apparent_encoding来解析文本的编码格式需要一定时间原代码:def getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_for_status() r.encoding=r.apparent_encoding return r.tex

2021-09-17 09:15:33 284

原创 【笔记】慕课-Python网络爬虫与信息提取-re库(3)

match对象一次匹配的结果,包含很多匹配的相关信息match对象的属性:.string 待匹配的文本.re 匹配时使用的pattern对象(正则表达式)re.compile( r ).pos 正则表达式搜索文本的开始位置.endpos 正则表达式搜索文本的结束位置match对象的方法.group(0) 可以获得第一次匹配后的字符串结果.start() 匹配字符串在原始字符串的开始位置.end() 匹配字符串在原始字符串的结束位置.span() 返回(.start

2021-09-16 09:08:06 271

原创 【笔记】慕课-Python网络爬虫与信息提取-re库(2)

Re库import reraw string类型(原生字符串类型) 不包含转义符\的字符串,即出现转义符\也不把它解释为转义的含义r’text’r’[1-9]\d{5}’ 表示国内邮政编码string类型包含转义符\,需要用\来避免被解释为转义的含义,更繁琐’text’’[1-9]\d{5}’ 表示国内邮政编码常用功能函数面向对象:match对象re.search(pattern,string,flags=0) 在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象

2021-09-15 09:12:14 138

原创 【HTML】记录学习html时的实践成果

<!DOCTYPE html><html> <head> <meta charset="utf-8"> <meta http-equiv="refresh" content="60"><!--每一分钟刷新网页--> <style type="text/css"> h1 {color:red;} h2 {color:blue;} h3

2021-09-14 17:07:57 294

原创 【笔记】慕课-Python网络爬虫与信息提取-re库(1)

Re 正则表达式regular expression regex提取页面关键信息常用于字符串匹配语法符号含义.表示任何单个字符[ ]字符集,对单个字符给出取值范围,比如[abc]、[a-z][^]非字符集,对单个字符给出排除范围,比如[^a]前一个字符0次或无限次拓展,比如abc*表示ab、abc、abcc…即c出现0次或多次+前一个字符1次或无限次拓展,比如abc+表示abc、abcc…?前一个字符0次或1次拓展,比如abc?表示ab、abc

2021-09-14 09:10:04 105

原创 【笔记】慕课-Python网络爬虫与信息提取-BeautifulSoup库(2)

JSON有类型键值对带有引号一对一 “key”:“value”一对多 “key”:[“value1”,“value2”]嵌套 “key”:{“subkey”:“subvalue”}YAML无类型键值对,没有任何引号和括号常用于配置文件缩进表示所属关系"-"表示同级并列关系key:valuekey:#Comment-value1-value2key:subkey:subvalue方法< tag >.find_all(name,attrs,recursive,

2021-09-13 11:01:53 221

原创 【笔记】慕课-Python网络爬虫与信息提取-BeautifulSoup库(1)

Beautiful Soup 解析HTML页面代码from bs4 import BeautifulSoupsoup=BeautifulSoup('<p>data</p>','html.parser') #'<p>data</p>'可以是使用requests库从html页面上爬取的源代码,还可以写成打开html/xml文件的形式open("D://demo.html")#'html.parser'是html解析器BeautifulSoup库作用

2021-09-09 15:04:44 141

原创 【笔记】慕课-Python网络爬虫与信息提取-Requests库(2)

robots.txt :网络爬虫标准“一个对网络爬虫的告知它内部资源能够被访问的权限”robots.txt 放在该网站的根目录下内容:User-agent:*Disallow:/(*代表所有)所有访问对象,比如爬虫、浏览器等(/代表根目录)不允许访问该根目录下的所有资源课程给出尝试访问以下链接:http://www.baidu.com/robots.txthttp://news.sina.com.cn/robots.txthttp://www.qq.com/robots.txtht

2021-09-07 16:44:53 214 2

原创 【笔记】慕课-Python网络爬虫与信息提取-Requests库(1)

Requests1、Requests库自动爬取HTML页面的源代码,自动网络请求提交。requests.requests(method,url,**kwargs)method:'GET','HEAD','POST','PUT','PATCH','delete','OPTIONS'**kwargs:params,data,json,headers...(访问控制参数)其中的method分别对应HTTP中的方法method。2、获取互联网上的资源 requests.get()r=req

2021-09-03 11:25:36 226

原创 【Python】记录一些容易被自己混淆和忽略的语法

反斜杠一般用于转义,而使用 r 可以让反斜杠不转义。如 r"hello world! \n" 则\n会显示\n,而不显示换行。Python通常是一行写完一条语句。如果语句很长,使用反斜杠 \ 来实现多行语句。在 [], {}, 或 () 中的多行语句,不需要使用反斜杠 \就能实现多行。可以在同一行中使用多条语句,语句之间使用分号 ; 分割。字符串有两种索引方式,从左往右以 0 开始,从右往左以 -1 开始。0123210-1print 默认..

2021-08-11 17:18:58 114

原创 CentOS7.6 Failed to start LSB: Bring up/down解决方法

参考文章:https://blog.51cto.com/addam/1839518虚拟机崩溃修复之后突然无法上网,ip地址变为127.0.0.1根据其他网络文章中提供的设置,BOOTPROTO=staticONBOOT=yes插入新信息:IPADDR=原本的ip地址,HWADDR=MAC地址保存使用service network restart试图重启服务后出现这样的提示:Job for network.service failed because the control process e

2021-07-14 14:40:19 219

原创 初识面向对象:C++类与对象基础练习

在学习C++和数据结构的过程中遇到了面向对象编程(OOP),小心翼翼的学完什么是面向对象之后写了一个非常简单的C++程序小小练习了一下。如有错误恳请指正啦。这个程序的目的是:创建一个类(class)来获取和展示“我(Me)”的基础信息。设定了基础信息是私有的,因此使用函数传递修改的信息。这里把C罗当作一个“我”的对象。((>▽<)ゞ!!嘻嘻嘻)另外:台湾地区的各种翻译简直...

2019-10-20 01:28:49 234

原创 C++入门:循环的基础练习小记

今天练习了C++循环结构的基础篇,在这里记录总结。疏失之处,恳请指正!问题一经典的猴子吃桃问题!猴子第一天摘下若干个桃子,当即吃了一半,还不过瘾,又多吃了一个。第二天早上又将剩下的桃子吃掉一半,又多吃了一个。以后每天早上都吃了前一天剩下的一半零一个。到第十天早上再想吃时,就只剩一个桃子了。求第一天猴子一共摘了多少个桃子?问题分析:可以通过最后一天已知的桃子数量反向迭代推出第一天的桃子数量...

2019-09-28 00:02:55 356

原创 Python入门学习小记:100以内素数/质数之和

今天做到一题利用for循环求100以内素数之和的题目,发现自己在Python的语法上遇到了问题:这个else是谁的?在此记录以防下次又做错啦。题目很简单:100以内素数之和求100以内所有素数之和并输出。 ‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬...

2019-09-24 00:08:53 11590 7

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除