自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 资源 (1)
  • 收藏
  • 关注

原创 虚拟机安装win10时进入Boot Manager界面

使用VMware 17 Player安装Win10时进入了Boot Manager界面。,但是发现并没有“高级”选项,就只能另辟蹊径,又在。下成功进入win10 的安装界面。

2023-04-28 17:27:52 6829

原创 VB.NET中的字典及遍历

其中键是字符串类型,值是整数类型。它包含了三个键值对:Apple-10、Banana-20和Orange-30。字典作为VB.NET中的一种集合类型,它可以存储键值对:每个键必须是唯一的,而每个值可以是任何类型。字典可以用于快速查找和访问数据,因为它们使用哈希表来实现。在VB.NET中,字典可以通过使用Dictionary(Of TKey, TValue)类来创建。

2023-03-30 14:30:34 2449

原创 VB.net去掉字符串最后两位字符

VB.net去掉字符串最后两位字符

2022-12-02 18:36:17 879

原创 VB.Net获取指定文件路径的存储路径

VB.Net、指定文件存储路径

2022-11-22 15:31:07 2066

原创 VB.net判断字符串是否以数字开头

VB.net、正则表达式

2022-10-21 14:17:17 622

原创 报‘utf-8‘编码错误,我是这样解决的

突然想起远古的老师说过报’utf-8’编码的错误,可能是因为py文件的头部没有添加# -*- coding: utf-8 -*-这个东西

2021-03-22 16:01:15 4158 1

原创 以爬取百度图片看Json

前言突然发现,在学习Python爬虫的时候重复走了一些弯路,比如信息提取这一块,对于很明显的json采用的居然是re,正则虽然强大,但是在遇到json数据后依旧使用正则去提取是一件很不舒服的一件事,而在前几篇喜马拉雅有声小说爬取时采用的便是re,现在看来实在是变扭,所以赶紧重新写一遍也提醒广大起步学爬虫的大兄弟们: json数据不要再使用正则了!,当然也可能只是我个人菜到只会正则表达式通俗易懂,像是这样pprint一下就是:这样的键值对...

2021-03-19 17:30:16 444

原创 python爬取百度热榜链接

目标网址:https://www.baidu.com/所要获取的内容:链接分析:你会发现(自己看下图哈),所以只需要获取关键字,再构建就可以啦完整代码:import requestsimport pprintimport reimport urllib.parseurl = 'https://www.baidu.com/'headers = { 'Host': 'www.baidu.com', 'Referer': 'https://www.baidu.com/',

2020-08-23 13:00:31 845

原创 python爬取某省财政政策内容并保存为csv文件,最后用excel打开

目标网址要求保存形式分析代码及主要注释csv文件用excel打开问题

2020-08-21 15:39:15 2650 2

原创 解决No module named pyexecjs

前言昨天初步入门JS解密有道翻译,但没想到在包名上踩了半个小时大坑:首先,不知道什么时候安装的pyexecjs,于是上代码的时候很自然就import pyexecjs,接着就有了上面的图和问题解决这又是一个容易忽视的可爱的它:下载的模块名和导入的包名不一致改成import execjs,即可使用...

2020-06-24 14:19:50 1284 14

原创 APP爬虫之央视新闻

目标:爬取央视新闻2020年一月份的所有新闻数据需求:首先除了基本pycharm配置之外,你还需要一步手机或者一模拟器(这里使用落电模拟器),以及用于抓包的工具(我使用的是fiddle)打开你安装好的央视新闻APP和我的fiddle(记得配置好fiddle)选择要爬取的时间链,我选择了1月1日的往fiddle找找找,找到了新闻的的标题和新闻的url位置:央视新闻往下拉,刷新新闻,继续得到所要请求的网址,再更改时间链,找找找,找网址我们会发现以上两个会改变的地方,可以猜到p就是页(肯定),

2020-06-05 15:19:11 2866

原创 selenium实现问卷星自动填写

前言在上篇pyppeteer版本的问卷星后写了selenium版本目标和要求依旧是:目标网站:https://www.wjx.cn/jq/78696684.aspx要求:1. 将所有的单选题随机选择2. 所有的多选题随机选择两个3. 填空题随便填入一句话4. 点击提交按钮之前,进行选择是否提交浏览器驱动selenium之所以能够操纵浏览器,就是归功于浏览器驱动。selenium可以通过API接口实现和浏览器驱动的交互,进而实现和浏览器的交互。所以要配置浏览器驱动。火狐驱动下载地址: h

2020-05-29 19:19:42 821

原创 pyppeteer实现问卷星自动填写

环境安装第三方库下载:pip install pyppeteer驱动下载:我使用的是淘宝镜像中的chromium,进入这个网址 chromium,下载后解压到一个文件夹了解pyppeteerPyppeteer 是一款非常高效的 web 自动化测试工具,由于 Pyppeteer 是基于 asyncio 构建的,它的所有属性和方法几乎都是 coroutine (协程) 对象,因此在构建异步程序的时候非常方便,天生就支持异步运行。程序构建的基本思路是新建 一个 browser 浏览器 和 一个 页面 p

2020-05-29 18:25:25 1324

原创 python提取钢铁数据走势图中的数据

目标网址: https://index.mysteel.com/price/indexPrice.html要求: 上图信息中的钢铁数据走势图中的数据先来看看是什么亚子的:要的数据还是蛮好找的:代码也是好写,舒舒服服顺顺利利:import requestsimport reimport jsonimport pprinturl = 'https://index.mysteel.com/newprice/getChartMultiCity.ms'params = { 'call

2020-05-29 14:02:06 1538 2

原创 python爬取税务局并将数据保存在Excel

目标地址:http://www.chinatax.gov.cn/chinatax/n810346/n810825/index.html采集采集以下栏目:增值税、消费税的前两页数据每个栏目的:标题、发文日期、文号保存将所有信息保存到税务局.xlsx文件,依据栏目名创建数据表,每个栏目的数据保存到对应的数据表还是先找到目标数据(如果没有记得刷新):这样就可以获取它的url、请求头之类的信息(点击那个Headers),最后根据自己的思路一步步爬取:导入相关库:import op

2020-05-21 16:35:15 3719 1

原创 python使用正则去除字符串里多余的空白字符

目标:删除 xml_str 字符串里面多余的空白字符,让文字内容更紧凑输出import rexml_str = """<?xml version="1.0" encoding="UTF-8"?><TowerRouteTask> <FileVer>TowerRouteTask-1.0</FileVer> <CreateTime>2020-05-09 13:47</CreateTime> <TaskN

2020-05-19 23:58:01 1960

原创 python爬取拉勾网职位信息

首先,明确目标:我爬取的是python职位的前10页数据然后,找到自己需要的数据并获取地址:其次,先爬取1页是数据(请求头、获取数据):import jsonimport requestsimport pprintimport timeurl = 'https://www.lagou.com/jobs/positionAjax.json'params = 'px=default&needAddtionalResult=false'data = { 'first': '

2020-05-19 23:32:46 560

原创 python爬取喜马拉雅有声小说

以绝世高手为例,爬取前三页的所有音频采集地址:https://www.ximalaya.com/youshengshu/16411402/思路只有两个:获取一级页面、获取二级页面先一步二步看一下代码: def get_mes(self): id_list = [] # 获取前三页的地址,range顾头不顾尾 for i in range(1, 4): page_url = f'https://www.ximalaya.co

2020-05-17 14:57:37 1328

原创 用python爬取B站弹幕生成专属词云

前言作为一个后现代网络少年,无意间看到涛姐(刘敏涛)的千万直拍,加上有才的网友,于是顺利承包了所有的笑点,实在是上头,pick!pick!pick!爬取思路1. 利用requests请求网页并使用正则获取弹幕2. 生成专属词云步骤1. 在涛姐的视频中,选空白处右击——>检查,得到以下界面:2. 得到上面的url,复制黏贴打开,可以得到弹幕信息:代码块1. 导入相关库:import requestsimport reimport wordcloudimport PIL.I

2020-05-12 12:50:30 590

原创 Visio连接线的箭头如何变为直线、双箭头;直线转换为箭头

我的是右侧弹出以下:O的K:

2020-05-07 22:37:43 17111 2

原创 MOOC计算机网络第二单元测验(哈尔滨工业大学)

...

2020-05-07 18:22:14 3362 10

原创 关于pip下载很慢很慢

在下载库的时候,我们使用的通常是国外的pip镜像,所以下载的时候会很慢,所以如果我们使用国内的镜像源,安装各种包的速度会快一些。国内的一些pip镜像:- 阿里:http://mirrors.aliyun.com/pypi/simple - 豆瓣:http://pypi.douban.com/simple - 中科大:http://pypi.mirrors.ustc.edu.cn/simpl...

2020-05-07 12:05:24 274

原创 用Keil点亮一个或多个发光二极管

首先,打开我们的keil5,新建一个工程项目点击保存后会出现如下窗口,并对以下进行设置:新建一个文件直接保存把新建的文件(以上为demo.c)添加到目标项目:开始写代码啦:生成.hex文件:.hex生成成功。然后打开我们安装好后的proteus,图标为:准备好AT89C51、LED-YELLOWW、RES:(可以在这里找到)按照如下接好电路:接下...

2020-04-20 11:29:04 6207

原创 安卓学习之登录时如何将密码转换成点点点

今天get到一个新技能,就是在搞登录时,如何将边输入的密码边转换成**···**只要在输入密码编辑框EditText布局上面加入android:inputType="textWebPassword"这一行代码就可以搞定啦:运行效果为:...

2020-04-07 17:40:06 1286

原创 16进制的乘法运算

以往遇到16进制的乘法都是按照10进制的思路去做,例如17x68=(相当于10进制的23x104):但总觉得还是麻烦了些,大家有没有其他的算法呢?

2020-04-05 14:51:19 16282 1

原创 String values are compared using '==',not equals()

安卓小白在模拟登录的时候,发现无论用户名和密码是否正确,结果都是“ 您的打开方式有误,请重新尝试!”。在检查的时候发现了一对发黄的 ‘==’,鼠标搬到= =的位置,就出现了那句话,如图所示:意思大概就是说,代码使用‘ ==’来比较字符串的值,而不是equals()所以不太聪明的我立马将代码改成:if(username.equals(us) && password.equal...

2020-04-04 15:51:38 6000 2

原创 Cannot resolve symbol 'Button'和自动导包

安卓小白在做移动互联开发作业的时候,遇到了个问题(直接上个图):其实就是因为没有导包所造成。那么,为了防止类似的错误发生,我们可以设置自动导报:其中,Show import popup会展示导入的信息;Ask为询问导入;Add unambiguous imports on the fly就是自动导入;optimize imports on the fly(for current pro...

2020-03-22 20:32:03 6203 3

原创 系统流程图和Visio

今天做了个作业,画系统流程图。系统流程图就是概括地描绘物理系统的传统工具,基本思想为用图形符号以黑盒子形式描绘组成系统的每个部件(程序、文档、数据库、人工过程等)。题目是这样:某校办工厂有一个库房,存放该厂生产需要的各种零件器材,库房中的各种零件器材的数量及其库存量临界值等数据记录在库存主文件上,当库房中零件器材数量发生变化时,应更改库存文件。若某种零件器材的库存量少于库存临界值,则立即报告采...

2020-03-18 15:15:52 4270 4

原创 csdn首页博文爬取

刚学爬虫时,爬取了csdn博文,遇到了一个问题,就是正则表达式需要的是h2标签里面那个url于是就让pat = '<a href=(.*?)\s+target="_blank"',但是会匹配到多余的东西,便让h2作为唯一标识,^\s*$匹配空行(也尝试\s+?匹配空格),于是pat = '<h2>^\s*$<a href=(.*?)\s+target="_blank"...

2020-02-18 01:41:42 246

原创 出版社名爬取

好多天前初步学习了爬虫,爬取了豆瓣阅读的出版社名,做个小笔记。本来想直接爬的,发现不能,就用了浏览器伪装技术。import urllib.request# 也可以使用requestsimport re# 请求头headers = ("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (K...

2020-02-18 00:52:22 192

原创 pycharm下载scrapy,cmd输入scrapy,不可运行

今天开始学习Scrapy框架,我是直接在Pycharm上pip install scrapy,但是在cmd上面输入scrapy却说它不是内部或外部命令,也不是可运行的程序或批处理文件。于是就把scrapy的路径添加到环境变量中,重启cmd输入scrapy,发现还是那样,就删掉了新加的环境变量,直接再次打开cdm,更新了pip,再输入pip install scrapy,出现下图再输入scrap...

2020-02-17 20:09:51 1061 6

dangdang.rar

python利用scrapy框架爬取当当所有图书的数据(各个栏目的图书数据,包括评论数、图书名、价格等)

2020-06-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除