MoltenDivineCore-优快云博客

原创 xx-Pixiv Spider

import requestsfrom lxml import etreeimport jsonimport os# 缺陷 1：下载的是图片合集，会下载其他角色的图片# 缺陷 2：不能存 gif，因为P站的 gif 图片用的是我还不懂的方式#================================================#设置一个 Session 保持会话se = requests.session()# E:\\0-Picture\\3-明日方舟\\鞭刃\\# E.

2021-04-19 16:37:27 30849

原创【Python爬虫】通过post函数获取aspx网页的第二页内容【asp.net】【aspx】

时间：2021-1-18目标：爬取广东能源商务网的招标项目列表关键难点：asp.net脚本语言，requests库的post函数，xpath的解析，openpyxl的使用1 - 什么是asp.net？2 -什么是aspx？3 -爬虫时遇到的相关问题（1）对动态网页一无所知以前没爬取过动态网页，一开始用爬知网的思路爬广东能源商务网，自然是碰壁，只能得到第一个页面的内容。后来通过搜索动态网页类型了解到asp.net，经过比对确认了广东能源商务网使用的是aspx动态网...

2021-01-19 17:04:59 4643

原创 W_02：批量修改文件内容

import os# ▇▇ 读取文件列表，将所有文件的目录打包并返回一个列表 ▇▇def file_name(file_dir): files_name = [] print(os.walk(file_dir)) for root, dirs, files in os.walk(file_dir): for file_name in files: files_name.append(root+'/'+file_name)# 把当前【文件.

2020-05-14 10:16:36 248

原创 W_01：批量修改文件名

1.查看文件列表os.walk() 方法用于通过在目录树中游走输出在目录中的文件名，向上或者向下。# -*- coding: utf-8 -*-import osdef file_name(file_dir): print(os.walk(file_dir)) for root, dirs, files in os.walk(file_dir): print(root) # 当前目录路径 # for file_name in files:

2020-05-13 14:57:09 322

原创【Ta-Lib】【1】windows、python3.7、64位，安装talib遇到的坑。

1.Ta-Lib是什么TaLib是一个Python金融指数处理库。包含了很多技术分析里的常用参数指标，例如MA、SMA、WMA、MACD、ATR等。2.初步安装参考：非常详细的Ta-Lib安装及使用教程；Ta-Lib官网‘过程：直接运行 pipinstallta-lib 下载官网的压缩包，解压后用 pythonsetup.py运行结果：失败，报错，满页大红。关键...

2019-12-11 22:30:28 3082

原创 007-我要爬知网！关于耗了我很长时间的搜索结果列表！【第三次】

作为一个合格的萌新，这个步骤卡了我很久！我要爬取的页面长这个样子：但是这个网页的连接是这样：【没有任何特点】知网先把搜索要求发给【不知道哪里】，再从【不知道哪里】把结果发送到这个defaul_result.aspx页面上。所以网页地址里没有任何信息。这肯定代表了什么机制……不过没那么现在不去摸索这个，要绕过他。第一步：直接F12，在elements里康康内容找...

2019-11-22 21:01:42 342

原创 006-我要爬知网！完整地爬取了参考文献的内容。【第二次】

虽然写着第二天，但实际上离第二天过了不知道多久。具体的代码我前两天就写完和改完，但因为别的原因没写博客。参考文献这个，实话说，很简单……毕竟只要找点规律就好。接下来该怎么绕过知网的反扒设计进行搜索才是重点，查了很多文章都没搞懂。1. 需要的包import requestsfrom lxml import etree2. 用来作为测试的文章的url# ▇▇▇▇▇ 00：参考...

2019-11-20 20:05:32 3844 3

原创 005-我要爬知网！【第一天】

毕业论文要做个知识图谱出来，用Python，关于经济学方面的。最近正好学了爬虫，打算试试从知网爬个文件列表下来。我只需要引文网络，所以每篇论文上获取的内容并不多。今天先从某一篇文章里爬取所需要的几个信息。实现了获取标题和获取关键词。import requestsfrom lxml import etree#00：▇▇▇▇▇获取网页▇▇▇▇▇url="https://kns.c...

2019-11-03 21:58:14 340

原创 004-中国大学排行、【爬虫】【Python】

来回忆下爬虫四个步骤：获取页面解析数据储存数据 main()我们再来一次，这次爬取对象是http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html获取页面用的是request.urlopen(url)，接着用 response.read().decode('utf-8') 来获取可读取中文的格式。然后用bs4解析，函数是...

2019-10-23 22:15:02 196

原创 001-猫眼排行榜前100电影爬取【爬虫】【Python】

第七周第一节实践课，学习的内容是爬虫。之情一直对爬虫有兴趣但因为懒所以没有付诸实践，现在正是大好机会。【目标】爬取猫眼网站前100的电影，保存到csv中，并保存他们的封面。【遇到的主要问题】正则表达式。别忘了创建保存图片用的文件夹。【代码存档】import csvimport reimport requestsfrom requests import Reque...

2019-10-21 16:10:46 434