- 博客(10)
- 收藏
- 关注
原创 xx-Pixiv Spider
import requestsfrom lxml import etreeimport jsonimport os# 缺陷 1:下载的是图片合集,会下载其他角色的图片# 缺陷 2:不能存 gif,因为P站的 gif 图片用的是我还不懂的方式#================================================#设置一个 Session 保持会话se = requests.session()# E:\\0-Picture\\3-明日方舟\\鞭刃\\# E.
2021-04-19 16:37:27
30564
原创 【Python爬虫】通过post函数获取aspx网页的第二页内容【asp.net】【aspx】
时间:2021-1-18目标:爬取广东能源商务网的招标项目列表关键难点:asp.net脚本语言,requests库的post函数,xpath的解析,openpyxl的使用1 - 什么是asp.net?2 -什么是aspx?3 -爬虫时遇到的相关问题(1)对动态网页一无所知以前没爬取过动态网页,一开始用爬知网的思路爬广东能源商务网,自然是碰壁,只能得到第一个页面的内容。后来通过搜索动态网页类型了解到asp.net,经过比对确认了广东能源商务网使用的是aspx动态网...
2021-01-19 17:04:59
4496
原创 W_02:批量修改文件内容
import os# ▇▇ 读取文件列表,将所有文件的目录打包并返回一个列表 ▇▇def file_name(file_dir): files_name = [] print(os.walk(file_dir)) for root, dirs, files in os.walk(file_dir): for file_name in files: files_name.append(root+'/'+file_name)# 把当前【文件.
2020-05-14 10:16:36
236
原创 W_01:批量修改文件名
1.查看文件列表os.walk() 方法用于通过在目录树中游走输出在目录中的文件名,向上或者向下。# -*- coding: utf-8 -*-import osdef file_name(file_dir): print(os.walk(file_dir)) for root, dirs, files in os.walk(file_dir): print(root) # 当前目录路径 # for file_name in files:
2020-05-13 14:57:09
307
原创 【Ta-Lib】【1】windows、python3.7、64位,安装talib遇到的坑。
1.Ta-Lib是什么TaLib是一个Python金融指数处理库。包含了很多技术分析里的常用参数指标,例如MA、SMA、WMA、MACD、ATR等。2.初步安装参考:非常详细的Ta-Lib安装及使用教程;Ta-Lib官网‘过程:直接运行 pipinstallta-lib 下载官网的压缩包,解压后用 pythonsetup.py运行结果:失败,报错,满页大红。关键...
2019-12-11 22:30:28
3026
原创 007-我要爬知网!关于耗了我很长时间的搜索结果列表! 【第三次】
作为一个合格的萌新,这个步骤卡了我很久!我要爬取的页面长这个样子:但是这个网页的连接是这样:【没有任何特点】知网先把搜索要求发给【不知道哪里】,再从【不知道哪里】把结果发送到这个defaul_result.aspx页面上。所以网页地址里没有任何信息。这肯定代表了什么机制……不过没那么现在不去摸索这个,要绕过他。第一步:直接F12,在elements里康康内容找...
2019-11-22 21:01:42
329
原创 006-我要爬知网!完整地爬取了参考文献的内容。【第二次】
虽然写着第二天,但实际上离第二天过了不知道多久。具体的代码我前两天就写完和改完,但因为别的原因没写博客。参考文献这个,实话说,很简单……毕竟只要找点规律就好。接下来该怎么绕过知网的反扒设计进行搜索才是重点,查了很多文章都没搞懂。1. 需要的包import requestsfrom lxml import etree2. 用来作为测试的文章的url# ▇▇▇▇▇ 00:参考...
2019-11-20 20:05:32
3678
3
原创 005-我要爬知网!【第一天】
毕业论文要做个知识图谱出来,用Python,关于经济学方面的。最近正好学了爬虫,打算试试从知网爬个文件列表下来。我只需要引文网络,所以每篇论文上获取的内容并不多。今天先从某一篇文章里爬取所需要的几个信息。实现了获取标题和获取关键词。import requestsfrom lxml import etree#00:▇▇▇▇▇获取网页▇▇▇▇▇url="https://kns.c...
2019-11-03 21:58:14
331
原创 004-中国大学排行、【爬虫】【Python】
来回忆下爬虫四个步骤:获取页面 解析数据 储存数据 main()我们再来一次,这次爬取对象是http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html获取页面用的是request.urlopen(url),接着用 response.read().decode('utf-8') 来获取可读取中文的格式。 然后用bs4解析,函数是...
2019-10-23 22:15:02
186
原创 001-猫眼排行榜前100电影爬取【爬虫】【Python】
第七周第一节实践课,学习的内容是爬虫。之情一直对爬虫有兴趣但因为懒所以没有付诸实践,现在正是大好机会。【目标】爬取猫眼网站前100的电影,保存到csv中,并保存他们的封面。【遇到的主要问题】正则表达式。 别忘了创建保存图片用的文件夹。【代码存档】import csvimport reimport requestsfrom requests import Reque...
2019-10-21 16:10:46
422
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人