
数据挖掘
Drone_xjw
您的支持是我不竭的动力!
展开
-
爬虫通过uniprotID获取Pathway内容(part2)
在这次实践中,一开始遇到的问题是我应该用哪个标签来定位Pathway,然后我经过几次尝试之后,排除了class、ID、div字标签等,因为这些要么是出现了重复的Pathway,要么是class样式在不同的uniprotID中还会改变,所以我最终确定了用h4标签来定位Pathway。第二个问题是,由于访问外网实在是慢,所以我用了梯子。然后会出现各种问题,代理问题,或者访问版本问题,这些问题我都还不理解是为什么,只是根据百度错误,试图去寻找一种解决办法。另外一个是小bug(这部分代码执行时候可以注释掉,直.原创 2020-07-03 09:01:57 · 1292 阅读 · 0 评论 -
python爬虫匹配uniport数据库的Pathway字段是否存在(方法一)
记录一下通过uniprotID获取网页内容并匹配的方法一,这里主要是通过获取的网页内容作为字符串,然后利用python字符串匹配的方法来解决。另外也可以通过获取标签的方法,如果没有这个标签的话,那么就是没有这个字段,直接返回false。import requestsimport bs4import xlrdimport xlwtfrom xlutils import copyimport time# 获取读取xls文件中的数据def get_ID(file): data = xl.原创 2020-06-30 21:33:58 · 642 阅读 · 0 评论 -
selenium模拟浏览器批量下载网页渲染数据并重命名
我需要干啥:在该页面中提交序列(http://bioinf.cs.ucl.ac.uk/psipred/)例如序列:MNYKELEKMLDVIFENSEIKEIDLFFDPEVEISKQEFEDLVKNADPLQKVVGDNYITETFEWWEFENQYLEFELDYYVKDEKIFVLEMHFWRKIR提交之后,网站会跳转到这个界面(http://bioinf.cs.ucl.ac.uk/psipred/&uuid=68a83dbc-b8dc-11ea-b7bb-00163e100d53),.原创 2020-06-28 22:19:21 · 2262 阅读 · 0 评论 -
python爬虫百度图片(动态加载)
记录一下from selenium import webdriverfrom selenium.webdriver.common.action_chains import ActionChainsfrom selenium.webdriver.common.keys import Keysimport timeimport requestsdef getnamepage(name): b.get("http://image.baidu.com/") search_box =.原创 2020-06-23 21:49:57 · 913 阅读 · 0 评论 -
python爬虫学习 requests 和selenium的文档记录
requests 模块的文档记录https://requests.readthedocs.io/zh_CN/latest/user/advanced.html#advanced有问题可以查看文档原创 2020-06-23 15:11:05 · 221 阅读 · 0 评论 -
python读取写入xml文件和修改xml属性值(id,长宽高等)
下午一直找python修改xml标签内的属性值应该是怎么修改,总是差那么一点点都写不对这个函数,找到的博客大部分没有写这一步。这里记录一下,顺便有两篇优秀的博客。解决这个问题的思路是我认为一定会有一个set方法可以修改这个属性值,一直测试没写对这个函数,然后一直在找博客。以后找一下博客没有的话,应该去官方文档找,mark一下!!!解决的问题:读取xml文件,然后把node标签内的label值改为其他值,然后写入xml文件。<nodes> .原创 2020-05-26 15:52:42 · 3257 阅读 · 0 评论 -
新手学习入门python爬虫实战淘宝
记录一下重点由于淘宝需要登录,我们需要在headers中加入cookie获得的json格式,我们可以用在线json解析工具查看结构,这里也包括了两个自己画树状结构的函数import requestsimport bs4import reimport json# json_loads()是将json这种字符串格式的转化为python数据结构# json_dumps()是将python数据结构的数据转化json这种字符串格式# 打开链接def open_url(keyword):原创 2020-05-13 22:58:05 · 477 阅读 · 1 评论 -
新手入门python爬虫实战(三)爬取B站综合排名前两页的js教程视频
如果觉得有帮助,麻烦点赞鼓励一下谢谢重点这里我遇到一个问题是当我获得了li标签里面的整个内容后,我应该怎么样才能得到li标签里面的a标签的title,原来可以是a[‘title’]import requestsimport bs4def open_url(url): headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome原创 2020-05-13 20:47:03 · 241 阅读 · 0 评论 -
新手学习python爬虫项目实战爬取网易云评论
如果您觉得有帮助,麻烦点赞鼓励谢谢重点首先是我们根据上一篇博客的学习,可以轻松获得主页文件,但是,当我们查找评论时,却找不到评论,说明了评论放在另外一个文件。文件这么多,我们怎么知道是哪个文件呢?这时候,我们点击F12,在network一栏降低网页的加载速度,重新加载页面,当我们看到评论出来时,暂停网页刷新。点击doc栏或XHR栏可以看到加载过来的几个文本文件,一个个点开即可找到评论的文件,然后获取该文件链接。获取该链接之后,我们浏览器打开,发现是空的。然后我们看获取方式是post,这时候,我原创 2020-05-13 19:41:50 · 430 阅读 · 0 评论 -
新手入门python爬虫实战(二)
如果您觉得有帮助,麻烦点赞鼓励谢谢这里保存为Excel表格,用到了openpyxl库。首先建立一个工作对象,然后再操作写入这里还用到了正则匹配,我们首先是把网页爬下来看一下结构,然后根据需要,找正则表达式import requestsimport bs4import reimport openpyxldef open_url(url): headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWeb原创 2020-05-13 19:22:41 · 195 阅读 · 0 评论 -
新手学习入门实战python爬虫豆瓣top250
如果您觉得有用,麻烦点赞鼓励谢谢记录一下学习爬虫的第一课requests文档翻译版requests文档官方版import requestsimport bs4# 获取总共的页码def find_depth(res): soup = bs4.BeautifulSoup(res.text,"html.parser") #previous_sibling的意思是找前一个兄弟节点 depth = soup.find("span",class_="next").previ原创 2020-05-13 16:13:15 · 177 阅读 · 0 评论 -
小白入门关联规则之子图模式的类Apriori方法和gSpan算法挖掘学习
关联规则之子图模式文章的目的:了解子图模式在什么情况下使用理解子图模式的概念和原理学习子图模式的两种算法研究子图模式的算法应用目录结构进行说明:一、 基本概念二、 类apriori方法三、 Gspan算法四、 实验研究基本概念 首先我们要明白这样一个事情,在这么多关联规则的方法中,我们为什么要使用子图模式。这种子图模式在什么领域应用?图1 由上图1我们可以...原创 2019-12-31 23:36:48 · 2226 阅读 · 1 评论 -
小白入门谱聚类算法原理与实现
小白入门谱聚类算法原理与实现小白入门谱聚类算法原理与实现1. 谱聚类是什么?2.谱聚类步骤2.1 谱聚类构图2.2 谱聚类切图2.2.1RatioCut2.2.2Ncut3谱聚类实现小白入门谱聚类算法原理与实现文章结构主要分为下面三个部分①谱聚类是什么②谱聚类怎么进行聚类③谱聚类应用例子1. 谱聚类是什么?首先回顾一下聚类的概念:聚类:对大量未知标注的数据集,按数据的内在相似性...原创 2019-12-11 17:13:18 · 4005 阅读 · 1 评论