- 博客(14)
- 资源 (14)
- 收藏
- 关注
原创 6.获取环球时报关键词新闻--动态网页Ajax
一、背景前段时间写了个爬虫获取新浪的新闻,但新浪新闻页面文档页格式不统一,新闻质量也较差,经过筛选,环球时报上面的新闻质量稍好,且页面格式比较统一。二、实例解析1.思路我们这里主要获取环球时报上面的国际新闻国际性新闻URL:https://world.huanqiu.com/爬取新闻的三步法:解析主页上面的新闻链接---->解析每个新闻链接里面的内容---->格式化文本写入文档2.新闻链接解析常规套路,打开主页,检查元素,找到一个新闻的元素位置容易发现上图中,“多米
2021-03-06 21:25:57
1272
原创 5.selenium实现web自动化--批量删除优快云回收站里的文档
一、背景如上图,最近再csdn上写文章才发现17年7月之前没绑定手机号,账号被盗,上面发布了很多垃圾广告,想删除才发现优快云的回收站没有批量删除功能,只能一条一条的删,甚是麻烦,于是利用python中的selenium库编写个脚本实现批量删除。二、实现过程1.chrome的webdriver安装URL:http://npm.taobao.org/mirrors/chromedriver/打开链接,找到自己chrome对于版本的chromedriver下载后解压至任意目录即可2.安装
2021-03-02 16:34:06
479
原创 五、爬虫学习--分页爬取关键词新闻
一、背景疫情期间,每天需要搜集新冠肺炎相关新闻,编写了一个python脚本用户爬取新浪网相关新闻二、实例解析模块:requests、BeautifulSoup、reurl:https://search.sina.com.cn/?q=新冠&c=news&sort=time1.初始化定义一个GetNews类,在__init__中写入初始化参数class GetNews: def __init__(self,keyword,name): self.he
2021-03-01 19:23:08
1041
原创 二-python爬虫学习-下载小说
一、准备工作1.背景介绍小说网站:新笔趣阁2.爬虫步骤大致分三个步骤:发起请求:明确如何发起Http请求,获取到数据;解析数据:获取到杂乱的数据,对数据进行清理;保存数据:保存为自己想要的格式。发起请求就用requests解析数据有xpath、Beautiful Soup、正则表达式等,本文用BeautifulSoup保存数据:用常规的文本保存,后续继续用docx和xlsx保存3.Beautiful Souppip install bs4官方中文教程4.小试牛刀下载《斗破
2021-02-23 09:42:12
243
原创 四-python爬虫学习--下载电视剧
一、背景视频下载的套路基本同图片下载一样,甚至更简单。本文通过代码实现下载电视剧《赘婿》:https://www.okzyw.net/?m=vod-detail-id-71448.html思路:搜索---->解析---->下载。1.搜索F12检查元素,打开网络选项卡,搜索《赘婿》,可以发现向服务器POST了关键词‘赘婿’继续查看搜索结果,搜索结果保存在html的赘婿更新至14集中编写get_url()获取电视剧的urlimport requestsfrom bs4
2021-02-23 09:37:57
2328
1
原创 三、python爬虫学习--动态下载网站漫画
一、项目背景动漫之家漫画下载二、漫画下载下载《欢乐懒朋友》url:https://www.dmzj.com/info/huanlelanpengyou.html目标:保存所有章节的图片到本地1.获取章节名和链接名import requestsfrom bs4 import BeautifulSouptarget='https://www.dmzj.com/info/huanlelanpengyou.html'req=requests.get(target)html=req.text
2021-02-22 11:38:17
519
原创 一、python爬虫学习--爬虫基本概念
一、什么是爬虫网络爬虫,也叫网络蜘蛛(Web Spider)。它根据网页地址(URL)爬取网页内容,而网页地址(URL)就是我们在浏览器中输入的网站链接。例如:https://www.baidu.comURL 专业一些的叫法是统一资源定位符(Uniform Resource Locator),它的一般格式如下(带方括号[]的为可选项):protocol ????/ hostname[:port] / path / [;parameters][?query]#fragmentURL 的格式主要由前个
2021-02-22 10:21:55
322
原创 利用文件时间批量重命名照片和视频
问题描述承接上节的问题,在安卓和苹果间互导照片和视频还容易出现文件名混乱的问题,如下图所示。代码实现为保证文件名的准确性,这里主要提取照片的拍摄时间和视频的修改时间用于重命名,这两个时间一般是其原始时间,实现代码如下:import osimport reimport timeimport exifreaddef get_file_date(filepath, format): ''' 获取文件的时间戳,这里主要返回视频的时间,原时间一般为修改时间
2021-02-08 20:23:29
1836
1
原创 利用照片名中的日期批量修改照片的修改时间、访问时间、创建时间(python实现)
运用场景前些天家人换了手机,在导入一些照片时发现相册APP中的照片排序混乱,好在照片名中有日期信息,就利用pyhton实现批量修改照片的相关时间代码实现修改文件时间,首先想到的就是利用python中的time模块,但time模块的utime只能修改文件的修改时间和访问时间,创建时间改不了。下面继续利用win32file模块修改上述的三个时间。from win32file import CreateFile, SetFileTime, GetFileTime, CloseHandlefrom wi
2021-02-01 16:21:44
3226
3
原创 利用照片名中的日期批量修改照片的修改时间和访问时间(python实现)
运用场景前些天家人换了手机,在导入一些照片时发现相册APP中的照片排序混乱,好在照片名中有日期信息,就利用pyhton实现批量修改照片的相关时间代码实现修改文件时间,首先想到的就是利用python中的time模块,代码如下import os,sys,time,re'''利用utime模块,简单好用,但只能改 修改时间和访问时间,不能改创建时间'''# 将文件名中的空格替换为‘-’def space2bar(dirname, basename): newname = basena
2021-02-01 15:46:54
1381
1
原创 4.python+selenium实现web自动化----CSS选择器
根据 tag名、id、class 选择元素a. 要选择 所有的tag名为div的元素,就可以是这样elements = wd.find_elements_by_css_selector(‘div’)b. 根据id属性 选择元素的语法是在id号前面加上一个井号: #id值i. element = wd.find_element_by_css_selector(’#searchtext’)...
2020-04-15 10:58:45
463
原创 3.python+selenium实现web自动化----操控元素的基本方法
3.python+selenium实现web自动化----操控元素的基本方法操控元素通常包括a. 点击元素b. 在元素中输入字符串,通常是对输入框这样的元素获取元素包含的信息,比如文本内容,元素的属性点击元素• 点击元素 非常简单,就是调用元素WebElement对象的 click方法element_longin=wd.find_element_by_class_name(‘b...
2020-04-15 10:16:33
255
原创 2.python+selenium实现web自动化----选择元素的基本方法
等待元素的出现Selenium 的 Webdriver 对象 有个方法叫 implicitly_wait该方法接受一个参数, 用来指定 最大等待时长。如果我们 加入如下代码wd.implicitly_wait(10)那么后续所有的 find_element 或者 find_elements 之类的方法调用 都会采用上面的策略:如果找不到元素, ...
2020-04-15 10:11:13
165
原创 1.python+selenium实现web自动化----selenium的原理和安装
安装客户端库pip install selenium安装浏览器驱动(chrome)https://chromedriver.storage.googleapis.com/index.html下载 chromedriver_win32.zip,解压至d:\webdrivers\chromedriver.exe(注意放在没有空格和中文的目录)...
2020-04-15 10:08:25
236
LINUX 就该这么学--高清文字版-带书签.pdf
2019-05-21
0day安全:软件漏洞分析技术(第2版).pdf
2019-05-21
WINDOWS.核心编程第五版.pdf
2019-05-21
Excel操作大全
2013-07-05
S E T协 议 形 式 化 模 型 的 建 立 和 安 全 性 分 析
2013-07-05
Source Insight
2013-03-14
实战突击+C#项目开发案例整合+源代码
2012-06-01
仓库管理系统
2012-06-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人