
Python
x_mn
二餐三楼的饮料好好喝~
展开
-
Python爬虫 剑指Offer题目目录获取
获取剑指Offer的题目目录以及url。用于markdown,对数据加以处理。获取的信息结构代码import requests #获取请求from bs4 import BeautifulSoup as BS #解析网页,比正则表达式好用太多了num = 1def main( url ): session = ...原创 2020-05-04 16:25:57 · 319 阅读 · 0 评论 -
Python爬虫 Cookie查找,使用
在爬虫的过程中经常会遇到需要登入之后才能完整访问的情况。使用Cookic可以模拟登入的情况,登入信息存储于Cookie中。文章目录查找Cookie使用Cookie,模拟登入查找Cookie通过浏览器开发者模式(F12)直接查找。具体操作:进入开发者模式(F12)-> Network -> 选择花费时间最长的(一般就是第一行)红色部分即为Cookie使用ses...原创 2020-04-19 18:08:41 · 1151 阅读 · 0 评论 -
Python 爬虫遇到问题汇总
1. 防盗链问题:今天练习爬虫图片遇到,在浏览器上可以打开图片,但是用requests请求缺出现‘此网站的管理员禁止盗链此资源’这种字样。solution:设置头信息的来源Referer为目的链接即可。参考链接...原创 2020-02-06 00:29:22 · 335 阅读 · 0 评论 -
Python 将图片转成.py文件
用途:将文件打包的时候需要用到文件,但是缺无法打包进去。整体思想先将图片转成文本,需要的时候,将文本转成临时图片(现用现取)。使用方法先将图片转换成文本。使用以下函数import base64 def pic2py(picture_names, py_name): write_data = [] for picture_name in picture_...原创 2020-01-17 23:05:32 · 2839 阅读 · 0 评论 -
Python爬虫 爬取网站小说
爬取背景小说网站:纵横中文网爬取网站小说,算是一个简单的爬虫基础入门。新手可能会遇到一些不懂得地方,适合用来练手。开始实战爬虫准备:pip install requestspip install BeautifulSoup作用:requests用来请求网页。BeautifulSoup用来解析网页,这个可以使用正则表达式代替。文章内容获取:1.有个简单的方法,浏览器上右...原创 2020-01-15 14:35:45 · 1578 阅读 · 1 评论 -
Python 爬取西刺可用代理IP,自带检测。
功能:爬取西刺代理IP添加了自动检测IP是否可用功能输出到Data.txt文件中注意:爬取西刺的时候,有可能真实IP被封,可以先尝试爬取少量的代理IP,放入ip_use中。测试:1.测试输出2.文件输出代码:import requestsimport tracebackimport reimport randomimport timeip_list=[]...原创 2019-12-31 14:45:52 · 1253 阅读 · 0 评论 -
Python 爬虫更改Headers,替换浏览器信息和使用代理IP。
1. 出现问题:爬虫经常遇到当前访问次数过多,导致出现验证码的情况。被识别出为爬虫。2. 解决方案:可以使用不同的浏览器信息(user_agent)不同的转跳链接信息(referer)更换不同的代理 IP (proxies)3.代码:import requestsimport randomurl=r"https://www.baidu.com" #访问页面ip...原创 2019-12-27 14:44:32 · 4356 阅读 · 0 评论 -
Python 正则表达式匹配
- 匹配语法1. 特殊字符: 特殊字符 $ 匹配输入字符串的结尾位置。 ( ) 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。 * 匹配前面的子表达式零次或多次。 + 匹配前面的子表达式一次或多次。 . 匹配除换行符 \n 之外的任何单字符。 [ 标记一个中括号...原创 2019-12-16 22:46:35 · 3178 阅读 · 0 评论 -
Python 调用cmd命令 和 执行程序
1.使用system调用程序在当前目录下创建data文件import osos.system(r'mkdir data.txt')需要执行多条命令的时候,需要注意system每次只有一个单独的子进程,需要如下操作。import osos.system(r'D: && mkdir data')2.使用popen调用程序os.popen(命令,权限...原创 2019-12-14 17:36:29 · 819 阅读 · 0 评论 -
C++/Python 获取CPU,硬盘,主板等电脑硬件 序列号
C++获取序列号方式使用 _popen 来调用 cmd 内部命令来获取代码#include <bits/stdc++.h>using namespace std;string exe_cmd(const char *cmd){ char buffer[128] = { 0 }; string result; FILE *pipe = _popen(cmd, "...原创 2019-12-12 21:22:01 · 2237 阅读 · 0 评论 -
Python 文件读入输出
文件读入def read_file(): file = open("Data.txt") #打开文件 text = file.read() #读取文件 print(text) #输出内容为列表文件输出def write_text(): file = open("Data.txt",'a') #打开文件...原创 2019-12-11 20:31:07 · 617 阅读 · 0 评论