
日常记录
linuxvfast
这个作者很懒,什么都没留下…
展开
-
css选择器
attribute=value] [target=_blank]:选择target=”_blank“的所有元素。element,element div,p:选择所有元素和所有元素。element element div p:选择元素内部的所有p元素。[attribute] [target]:选择带有target属性的所有元素。#id #firstname:选择id=“firstname“的所有元素。element p:选择所有元素。* *:选择所有元素。原创 2023-05-30 11:29:07 · 203 阅读 · 0 评论 -
linux 内核驱动位置
Linux内核驱动模块目录位置转载 2023-01-06 17:53:30 · 622 阅读 · 0 评论 -
查看服务器配置信息
查看cpu信息、频率、机器型号及版本原创 2022-09-08 14:39:53 · 1685 阅读 · 0 评论 -
Linux安装Jenkins
需要模块:jdk, jenkins, tomcat, phing, php ssh2安装jdkyum -y install java-1.7.0-openjdk*安装tomcatcd /opt/modules/downloadwget http://mirrors.tuna.tsinghua.edu.cn/apache/tomcat/tomcat-7/v7.0.70/bin/apache-tomcat-7.0.70.tar.gztar zxvf apache-tomcat-7.0.70.tar转载 2021-09-28 17:21:39 · 126 阅读 · 0 评论 -
基础爬虫代码记录
spiderman.py 主服务# -*- encoding=UTF-8 -*-'''author:vfastname:spidermandata:2021/6/28'''from dataoutput import DataOutputfrom downloadhtml import HtmlDownloadfrom exparehtml import Exparsehtmlfrom urlmanager import UrlManagerclass SpiderMan(o.原创 2021-06-30 15:16:02 · 175 阅读 · 0 评论 -
存储媒体文件到本地
# -*- encoding=UTF-8 -*-'''author:vfastname:spiderdata:2021/6/24'''import urllibfrom lxml import etreeimport requestsdef Schedule(blocknum, blocksize, totalsize): ''' :param blocknum:已经下载的数据块 :param blocksize: 数据块的大小 :param tot.原创 2021-06-25 14:07:00 · 157 阅读 · 0 评论 -
获取网页数据存储到CSV
# -*- encoding=UTF-8 -*-'''author:vfastname:spiderdata:2021/6/24'''import csvimport refrom lxml import etreeimport requestsuser_agent = 'Mozilla/5.0 (X11; Linux x86_64; rv:78.0) Gecko/20100101 Firefox/78.0'headers = {'User-Agent': user_agent}.原创 2021-06-25 13:51:20 · 181 阅读 · 0 评论 -
存储数据到CSV文件中
import csvheaders = ['ID','UserName','Password','Age','Country']rows = [{'ID':1001,'UserName':'qiye','Password':'qiey_pass','Age':24,'Country':'China'}, {'ID':1002,'UserName':'Mary','Password':'Mary_pass','Age':20,'Country':'USA'}, {'ID.原创 2021-06-24 10:36:52 · 536 阅读 · 0 评论 -
ansible
ansiblegit安装git clone git://github.com/ansible/ansible.git --recursivecd ./ansbilesource ./hacking/env-setuprpm包安装yum install ansbile编译安装yum -y install python-jinja2 PyYAML python-paramiko python-babel python-cryptotar xf ansible.tar.gzcd ansbi原创 2021-06-24 09:07:15 · 132 阅读 · 0 评论 -
make clean和make distclean
make clean清除上次的make命令所产生的object文件(后缀为“.o”的文件)及可执行文件。make distclean类似make clean,但同时也将configure生成的文件全部删除掉,包括Makefile。原创 2021-06-24 09:07:06 · 471 阅读 · 0 评论 -
nginx配置
user nginx;worker_processes 1;error_log /var/log/nginx/error.log warn;pid /var/run/nginx.pid;#worker_rlimit_nofile 51200;events { use epoll; #worker_connections 51200; worker_connections 1024;}http { include /etc/nginx/mime.types; defau...原创 2021-06-24 09:06:02 · 91 阅读 · 0 评论 -
phpmyadmin下载地址
https://www.phpmyadmin.net/donate/原创 2021-06-23 17:23:32 · 171 阅读 · 0 评论 -
find使用
find ./ ! -newer `ll -ltrh | tail -8 |head -1 | awk '{print $NF}'` -exec rm -f {} \;find ./ ! -newer `ll -trh | tail -10 | head -1 | awk '{print $NF}'` -a ! -type l -exec rm -rf {} \; >/dev/nullfind /webapps/cms_online/logs -name "mes*.log*" -m...原创 2021-06-23 17:18:53 · 107 阅读 · 0 评论 -
Linux 临时清理内存
echo 3 > /proc/sys/vm/drop_caches原创 2021-06-23 17:11:48 · 157 阅读 · 0 评论 -
存储html为json格式
import requestsfrom bs4 import BeautifulSoupimport jsonuser_agent = 'Mozilla/5.0 (X11; Linux x86_64; rv:78.0) Gecko/20100101 Firefox/78.0'headers = {'User-Agent': user_agent}r = requests.get('http://seputu.com/', headers=headers)soup = BeautifulSoup.原创 2021-06-21 10:38:46 · 333 阅读 · 0 评论 -
通过第三方库requests实现http请求
1、get请求例子:import requestsrequest = requests.get('http://www.baidu.com')print request.content2、post请求原创 2021-06-18 14:59:08 · 153 阅读 · 0 评论 -
lxml解析html报错
报错如下:lxml.etree.XMLSyntaxError: Opening and ending tag mismatch: meta line 4 and原创 2021-06-18 14:48:52 · 351 阅读 · 0 评论 -
Ubuntu系统下deb包的解压、打包、安装、卸载及常用命令
1.首先下载deb包,比如:将其放在 /home/tools/ 根目录下:2.进入到tools根目录下的终端,输入下面命令创建文件夹extract,并在extract文件夹下创建DEBIAN文件夹mkdir -p extract/DEBIAN3.将deb包解压到extract文件夹下dpkg -X ./xxx.deb extract4.解压deb包中的control信息(包的依赖在这里面的control文件中)dpkg -e ./xxx.deb extract/DEBIAN转载 2021-06-08 14:39:02 · 23650 阅读 · 0 评论 -
beautifulsoup使用记录
from bs4 import BeautifulSouphtml_str='''<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>The Dormouse's story</title></head><body><p class="title"><b>The Dormou.原创 2021-06-06 15:25:53 · 82 阅读 · 0 评论 -
html解析库BeautifulSoup
安装:apt install python-bs4pip install beautifulsoup4下载源码:https://pypi.python.org/pypi/beautifulsoup4/原创 2021-06-06 12:22:02 · 81 阅读 · 0 评论 -
http访问请求的实现
1、urlib2和urllib两个内置模块实现http请求例子:import urllib2res = urllib2.urlopen('http://www.zhihu.com')html = res.read()print html或者原创 2021-06-05 18:41:25 · 410 阅读 · 0 评论 -
win10优化
g原创 2021-06-05 08:49:44 · 86 阅读 · 0 评论 -
javascript学习记录
js文件使用方法:1、直接插入代码,来源:python爬虫开发和项目实战,没有网络地址记录下原创 2021-06-01 17:09:22 · 93 阅读 · 0 评论 -
css学习记录
来源:Python爬虫开发与项目实战,没有链接记录下html中css的样式:1、内联样式:<body style="background-color: green;margin: 0;padding: 0;"></body>2、原创 2021-06-01 14:24:19 · 158 阅读 · 0 评论 -
html使用记录
html语言特点:1、可以设置文本的格式,如标题、字号、文本颜色、段落2、可以创建列表3、可以插入图像和媒体4、可以原创 2021-06-01 11:14:57 · 102 阅读 · 0 评论 -
UDP编程
TCP通信需要建立可靠的连接,通信双方以流的方式发送数据。相对于TCP来说,UDP是面向无连接的协议。使用UDP协议时,不需要建立连接,只需要知道对方的ip地址和端口,就可以直接发送数据包原创 2021-05-31 22:34:00 · 154 阅读 · 2 评论 -
麒麟软件开始菜单消失v10-sp1
打开电脑之后发现开始菜单失效了,按键盘上的win键出不来开始菜单,与其他系统对比发现是包有问题,安装ukui-menu之后开始菜单恢复正常。原创 2021-05-31 22:13:24 · 7785 阅读 · 1 评论 -
TCP编程
创建和运行TCP服务端的五个步骤1、创建Socket,绑定Socket到本地IP与端口2、开始监听连接3、进入循环,不断接收客户端的连接请求4、接收传来的数据,并发送给对方数据5、传输完毕后,关闭Socket...原创 2021-05-31 22:07:06 · 84 阅读 · 0 评论 -
优快云-markdown编辑器
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar原创 2021-05-31 21:52:44 · 80 阅读 · 0 评论 -
2021-05-18
爬取一个网站有很多种方法,选用哪种方法更加合适,则取决于目标网站的结构爬取网站常见方法:1、爬取网站地图2、遍历每个网页的数据库ID3、跟踪网页链接import urllib.request, urllib.errordef download(url,user_agent='wswp', num_retries=2): ''' 下载网页 :param url: 下载地址 :user_agent='wswp' 用户代理 :param n原创 2021-05-31 21:49:48 · 95 阅读 · 0 评论 -
封装爬虫数据
Item基类:自定义数据类(如BookItem)的基类Field类:用来描述自定义数据类包含哪些字段(如name、price等)自定义一个数据类,只需要继承Item,并创建一系列Field对象的类属性(类似于在django中自定义Model)定义数据类class BookItem(Item): name = Field() price = Field()创建BookItem对象book1 = BookItem(name='Needful Things',price=45.0)原创 2021-05-31 21:49:04 · 95 阅读 · 0 评论 -
进程和线程
fork实现多进程普通的方法都是调用一次,返回一次,而os的fork方法是调用一次,返回两次,原因是操作系统将当前进程(父进程)复制出一份进程(子进程),这两个进程几乎完全相同,于是fork方法分别在父进程和子进程中返回。子进程中永远返回0,父进程中返回的是子进程的ID。import osif __name__ == '__main__': print 'current Process (%s) start ...' % (os.getpid()) pid = os.fork原创 2021-05-31 21:48:14 · 71 阅读 · 0 评论 -
socket模块
Socket:提供标准的BSD Sockets APISocketServer:提供服务器中心类,可以简化网络服务器的开发socket类型:Socket类型 描述 socket.AF_UNIX 只能用于单一的Unix系统进程通信 socket.AF_INET 服务器之间网络通信 socket.AF_INET6 IPv6 socket.SOCK_STREAM 流式socket,用于TCP socket.SOCK_DGRAM 数原创 2021-05-30 19:02:34 · 398 阅读 · 1 评论 -
分部式进程
分部式进程是指将Process进程分布到多台机器上,充分利用多台机器的性能完成复杂的任务。分布式进程在Python中依然要用到multiprocessing模块。multiprocessing模块不但支持多进程,其中managers子模块还支持把多进程分布到多台机器上。可以写一个服务进程作为调度者,将任务分布到其他多个进程中,依靠网络通信进行管理。创建分布式进程的步骤:1、建立队列Queue,用来进行进程间的通信。服务进程创建任务队列task_queue,用来作为传递任务给任务进程的通道;服务进原创 2021-05-30 17:47:30 · 99 阅读 · 0 评论 -
协程
协程(coroutine)又称微线程,纤程,是一种用户级的轻量级线程。协程拥有自己的寄存器上下文和栈。协程调度切换时,将寄存器上下文和栈保存到其他地方,在切回来的时候,恢复先前保存的寄存器上下文和栈。因此协程能保留上一次调用时的状态,每次过程重入时,就相当于进入上一次调用的状态。在并发编程中,协程与线程类似,每个协程表示一个执行单元,有自己的本地数据,与其他协程共享全局数据和其他资源。协程需要用户自己来编写调度逻辑,对于CPU来说,协程其实是单线程,所以PCU不用考虑怎么调度、切换上下文,这就省去了CP原创 2021-05-30 14:48:09 · 113 阅读 · 0 评论 -
用rfkill命令管理蓝牙和wifi
rfkill是一个内核级别的管理工具,可以打开和关闭设备的蓝牙和wifi。#列出所有可用设备rfkill list输出如下:0: phy0: Wireless LAN Soft blocked: no Hard blocked: no2: hci0: Bluetooth Soft blocked: yes Hard blocked: no#关闭编号0的设备rfkill block 0#打开编号0的设备rfkill unblock 0...转载 2021-05-24 11:13:20 · 723 阅读 · 0 评论 -
css选择器
帮助文档https://www.w3.org/TR/selectors-3/原理:css选择器的语法比xpath更简单一些,功能没有xpath强大。当我们调用Selector对象的CSS方法时,在内部会使用python库的cssselect将css选择器的表达式翻译成xpath表达式,然后调用Selector对象的xpath方法。基本语法构建HtmlResponse对象from scrapy.selector import Selectorfrom scrapy.http import H原创 2021-05-23 18:51:12 · 134 阅读 · 0 评论 -
xpath使用
基础语法表达式描述/选中文档的根.(点)选中当前节点…(点点)选中当前节点的父节点ELEMENT选中子节点中所有ELEMENT元素节点//ELEMENT选中后代节点中所有ELEMENT元素节点*选中所有元素子节点text()选中所有文本子节点@ATTR选中名为ATTR的属性节点@*选中所有属性节点创建html文档from scrapy.selector import Selectorfrom scrapy.ht原创 2021-05-23 16:22:34 · 271 阅读 · 0 评论 -
爬虫
用途:避免很多的重复操作或者需要大批量的去查看一些信息需要注意的点:1、检查robots.txt2、查看网站地图http://xxxx/protocol.html,地图会提供所有的网页链接,该文件经常缺失或者过期3、估算网站大小,可以通过google搜索的site关键词过滤域名结果,可以访问http://www.google.com/advanced_search了解到接口和其他高级搜索参数的用法 可以搜索site:xx域名统计总数,site:域名/view只搜索国家页面...原创 2021-05-18 11:01:34 · 70 阅读 · 0 评论 -
Response内置Selector
在第一次访问一个Response对象的selector属性时,Response对象内部会以自身为参数自动创建Selector对象,并将该Selector对象缓存,以便下次使用。例子如下:from scrapy.http import HtmlResponsetext ='''<html> <body> <h1>Helo World</h1> <h1>Hello Scrapy</h1>原创 2021-05-16 22:50:51 · 457 阅读 · 0 评论