自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 使用pytorch进行BERT inference时遇到的一些问题

1. 数据集过大情况下,使用np.memmap内存映射读取大文件,在前几次程序运行时无错误,今天忽然报错:ValueError: cannot mmap an empty file. 这句话的意思是无法映射空文件,检查原因,发现是需要映射的大文件目录发生了改变,但并未在程序中修改该文件的路径导致。2. GPU并行进行BERT inference的设置:由于数据量达到百万条,inference的速度相当慢,因此采用多GPU并行对数据进行测试,这里参考了这篇文章的做法,不同之处在于if torch.c

2020-09-16 20:55:37 1138

原创 使用pyinstaller对scrapy+selenium+pyqt5项目进行打包常见问题总结以及主要过程记录

前一段时间构建了一个使用scrapy+selenium+pyqt5的爬虫可视化界面,用于爬取知乎、百度百家号以及新浪新闻,在界面调试无误后,就需要使用pyinstaller进行打包,将项目变成更容易移植的exe文件。这篇博文主要用于记录打包的主要过程以及问题的解决方法。1. pyinstaller的安装一般来说,使用常用的pip命令即可安装,但我在安装时遇到了如下问题:Installing build dependencies ... errorERROR: Command errored

2020-08-12 23:34:09 2549

原创 python scrapy+mongodb爬取百度百家号与新浪新闻

此前我爬取了zhihu的相关问答,为了更好地收集信息,原本的打算是爬取百度资讯的内容,但在对页面进行分析后发现,在百度资讯的搜索结果中,百家号的页面格式比较统一,便于爬取;而其他媒体网站的页面格式比较繁杂,并且在百度特定关键词搜索结果中,像腾讯新闻、新浪新闻等比较具有可信度,并且格式较为统一的页面,数量其实非常少,所以从百度资讯的媒体网站爬取数据是不太现实的。此时我发现,新浪具有新闻的检索功能,来源较为广泛,并且新浪作为转载网站,为页面提供了较为统一清晰的格式。所以最终我决定爬取百度百家号+新浪新闻信息。

2020-07-29 16:21:02 2451 1

原创 在scrapy通过配置文件进行自定义参数的爬虫并行

在同个项目下写了多个爬虫之后,如果我们需要同时并行运行多个爬虫,需要怎么做呢?关于这个,我找到了两篇可以解决问题的博文,主要思路是在爬虫目录下新建commands目录,重新定义Command函数,通过这个思路,我们可以做到的是重新定义启动爬虫时的命令行参数,收集我们需要传入内部的参数,并且再通过Command函数解析,并传递给每个运行的爬虫。其中一篇博文解释的思路比较清晰,耐心读就可以读懂:https://blog.youkuaiyun.com/qq_38282706/article/details/80991

2020-07-29 11:08:28 718

原创 scrapy+selenium按照某一主题爬取zhihu相关内容

紧接前一篇分析zhihu反爬方法的博文,经过好几天的折腾,最终我还是选择通过百度搜索相关的问题,直接对问题详情页进行解析。这样做的好处在于知乎问题详情页是可以使用selenium爬取的,不必与反爬斗智斗勇,也就不用担心万一很快进一步升级反爬策略后爬虫失效,不足之处在于爬取速度肯定比不上requests请求,不过对我来说影响不是很大,所以也算找到了一种可行的方法啦。今天这篇文章将详细记录一下scrapy+selenium+mongodb爬取zhihu某主题问题与答案的方法。爬虫的总体流程很简单:使用百

2020-07-18 12:35:46 757

原创 爬取zhi hu的小记录

在上篇制定了爬虫计划之后,我原本打算从zhi hu爬虫入手,因为同其他需要对多个目标站进行分析的任务相比,zhi hu的问答格式很统一,但后来发现原来自己跳了个大坑QQ。坑1:使用requests对zhi hu的搜索、问题页进行爬取因为本次需要根据关键词对内容进行爬取,所以很容易想到对zhi hu的搜索页进行爬取。需要说明的是,从zhi hu的搜索页面和问题页面进行访问不是必须要登录的,所以登录这步可以绕过。然而,zhi hu的问题页有一个绕不开的问题,那就是request的回答请求头中存在加密

2020-07-15 00:37:11 594

原创 项目准备——爬虫及数据存储部分

本次项目主要是针对某一主题,通过搜索引擎收集相关的新闻数据,同时也要对知乎的相关问答进行爬取,便于分析话题的关注热度。本篇记录第一个任务构思过程,即编写爬虫代码收集数据。数据来源:本次聚焦比较权威和大型的新闻网站,比如腾讯、新浪等,所以需要对url进行过滤。考虑到百度检索网页很多是机构页面,从百度资讯检索可以保证较高的时效性与新闻数量。因此,爬虫的总体结构确定为: 通过百度资讯的“媒体网站”分类下进行关键字检索,对信息来源进行过滤,提取信息。这个过程需要解析百度搜索界面的结果url,与网页检索不同

2020-07-10 12:51:02 458

原创 虚拟环境下ubuntu+cuda10.0+tensorflow1.13.1的运行

需要运行tensorflow1.13.1的代码,而服务器本身使用cuda10.2,经过查询后发现由于版本不匹配,所以无法运行。ImportError: libcublas.so.10.0: cannot open shared object file: No such file or directory于是在虚拟环境中部署cuda10.0环境。conda install cudatoolkit=10.0但是还是报错:ImportError: libcudnn.so.7: canno

2020-06-13 10:02:44 700

原创 pytorch使用DataParallel进行GPU并行训练,以及AttributeError: 'DataParallel' object has no attribute '**'错误的解决

请让模型奔跑首先由于GPU暂时没有爆显存的担心,主要是想把程序尽快跑起来,所以参考了https://zhuanlan.zhihu.com/p/86441879的方法,在他的文章中,不仅对单机多GPU的情况进行了介绍,同时也给出了平衡显存的方法,以及多机多GPU的方法,并且介绍很简洁易懂。在我的程序中,主要用到的是最简单的情况,步骤如下:使用单机多卡进行训练,设置程序可见的GPU编号:...

2020-05-07 12:28:51 4827 3

原创 ANDROID解决apk生成时Multiple dex files define问题的过程

在打包生成apk时,遇到了错误,提示我的pagerslidingtabstrip框架有Multiple dex files define的问题。一般出现这种问题是因为在导入dependencies的时候重复导入,而dex又不能完全将其合并,所以提示错误。上网搜索解决方案时,发现比较简明的办法是在terminal运行gradlew app:dependencies 作用是打印工程的依赖树,比较容易看...

2018-05-08 08:22:31 6634

转载 OkHttp上传Json数据

public class MainActivity extends AppCompatActivity {public static final String TAG = "MainActivity";public static final MediaType JSON=MediaType.parse("application/json; charset=utf-8");@Override...

2018-04-30 10:02:19 1910 3

原创 网络安全与管理作业的相关记录

网络安全与管理是信安专业的必修课,老师布置了几项任务供我们选择,我选择了用webgoat进行网络渗透实验。在实验之前首先要安装相关环境,在此先记录一下。首先,我从OWASP中国网站上下载了相关文档。阅读之后发现运行这个环境需要安装java和Tomcat,幸运的是之前我的电脑已经安装并运行过它们,所以直接从点击打开链接上下载压缩包即可。在Windows的安装过程如下:运行时:文档下面会有提示,为了安...

2018-03-10 22:19:03 676

原创 关于python使用wordcloud生成繁体字词云的方法

今天我了解了一些关于python词云模块的用法,简单地实践了一下。安装比较顺利,还是老办法,pip install就可以安装好,但是时间比较长,因为可能同时安装了很多使用词云必须用到的包。然后就是动手实践的过程了。在执行到from wordcloud import WordCloud,ImageColorGenerator这句代码时,提示can not import name "WordCloud...

2018-02-18 20:34:31 919

原创 解决python中出现“str”object is not callable的记录

在今天的python编程中,编辑新代码之后,之前一部分已经运行过的代码出现了问题,显示的是“str”object is not callable的问题,在网上查阅资料之后发现,大多数情况是因为在前面定义了以str命名的变量,导致了覆盖.但是反反复复检查了好几遍,发现并没有定义相应的变量。挣扎了好久终于承认这个问题的出现并不是因为我粗心导致了bug,而是其他方面的问题。首先说一下,我的项目是关于自然...

2018-02-13 15:24:51 33965 1

原创 python爬虫备忘(6)

下面将编写一个应用scrapy库的股票数据爬虫。先从东方财富网爬取相关的股票信息,如股票编号,然后再寻找与百度股票的联系。

2017-09-17 15:04:07 371

原创 yield关键字作用

yeild每一次调用都返回当前计算值,并且在下一次调用时将继续沿着上次的记忆进行。

2017-09-17 14:52:08 492

原创 python爬虫备忘(5)

今天开始学习python爬虫的scrapy库,它是一个爬虫框架,用户通过配置可以对规模较大的网站进行爬取。它通过命令行的形式来进行调用。5+2结构:常见指令:建立一个目录:init和items不需用户编写。然后可以生成一个名为demo的爬虫文件。可以看到spider目录下生成了一个demo.py文件。name是爬虫的名

2017-09-17 13:41:13 327

原创 python爬虫淘宝比价

首先是源码import reimport requestsdef getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_for_status() r.encoding=r.apparent_encoding return r.text except: ret

2017-09-07 18:51:23 2824 1

原创 python爬虫备忘(4)

今天主要学习的是正则表达式的相关知识.

2017-09-07 08:52:10 272

原创 python爬虫实例备忘

从视频中学习到的爬虫爬取中国大学排名的步骤。代码框架:提取数据:将所有的td标签查询出来(find_all简写方法),并且存储成一个列表类型tds.最后将它格式化输出即可:视频中还对中英文混排的输出进行了优化。没有对齐的主要原因是程序默认用英文字符填充,我们需要改成用中文空格填充即可。

2017-08-31 15:12:17 327

原创 python爬虫备忘(3)

今天的视频介绍了bs4中的find_all方法。查找两个标签时,用列表。如果内容是true,那么返回所有标签。第二个参数用来查相应属性。其中也可以用到正则表达式。第三个参数是用来限制查找范围的,默认为true,否则只查找儿子节点,不会查找所有子孙节点。最后一个参数用来匹配标签之间纯文本的字符串。方法具有简写形式:

2017-08-31 14:30:26 277

原创 ps备忘2

在前几天我学习了为黑白照片上色的方法其实十分简单快速。现在记录下来。首先选择好要上色的黑白照片,然后ctrl+j复制一层备用。然后就可以用快速选择工具进行选区,如果要取消选区则可以使用ctrl+d。选择好要上同一颜色的区域,可以用alt进行边界的修补,也可以调节边界的半径和平滑。然后从图层下的横栏中选择纯色,添加颜色,如果发现选区不对,则使用反向来反选。然后使用叠加的图层效果,

2017-08-30 16:16:42 258

原创 python爬虫备忘(2)

今天学习beautifulsoup的安装与使用。首先在命令行运行 pip install beautifulsoup4 即可完成安装。检测库是否安装成功。

2017-08-30 11:10:50 365

原创 请允许我...ps学习备忘!

首先要使用某些工具栏,可以在“窗口”选项中找到并打钩,或者在基本功能中选择“新建工作区”。ctrl+0可以让图片以最大的显示效果显示在画布上。ctrl+z后退。ctrl++放大,ctrl+-缩小。ctrl+d取消选区。在保存时,存储是覆盖原素材的,而存储为则是新建一个文件。混合模式中的滤色可以去掉图片中的深色部分,混合模式可以使用上下键来调整。在fx图层样式的部分可以找

2017-08-25 16:14:45 223

转载 python学习备忘

函数:关键字参数关键字参数和函数调用关系紧密,函数调用使用关键字参数来确定传入的参数值。使用关键字参数允许函数调用时参数的顺序与声明时不一致,因为 Python 解释器能够用参数名匹配参数值。以下实例在函数 printme() 调用时使用参数名:#!/usr/bin/python3 #可写函数说明def printinfo( name, age )

2017-08-25 10:22:51 386

转载 python爬虫备忘

robots协议地址图片爬取ip地址查询:

2017-08-24 14:21:14 237

转载 学习js的day3

今天我继续学习js,我的学习主要是通过观看网上的视频来进行。今天首先学习的是js语句部分。在视频中,一共分成了三个部分,分别是表达式语句,流控制语句和语句的返回值问题。表达式语句有一般表达式语句,赋值语句,声明语句,函数调用语句等,其中赋值语句有返回值,声明语句没有返回值。如果不声明变量就直接赋值,则是隐性将其定义为全局变量。js中函数本身也是一个变量,一个值。上图是函数调用语句的圆括

2017-08-23 13:53:39 242

原创 继续学习javascript

number类型里面有一个NaN类型,表示not a number,有两个规律。

2017-08-22 14:26:55 249

原创 学习bootstrap的day3

歇过了一个双休日,今天我继续学习bootstrap基础内容。首先是面板。   用户统计   lorem        更新于...   default同样可以改为success,danger,info,warning等等,显示不同颜色。还可以继续给这个面板框加上脚标(红色字体,可以使字体变小变淡)。绿色字体可以加大字码。还有就是bootstrap

2017-08-21 14:58:57 273

原创 继续学习bootstrap

首先记一个让web内容居中的写法:body{max-width:1080px;margin:0(上下) auto(左右);}今天我学习了一下有关导航和导航栏的知识。可以创建一个nav列表:  登陆  注册  忘记密码会形成一个像浏览器标签页的导航,在tabs后面加一个nav-justified,可以使标签平均分布。还有一种

2017-08-21 14:31:01 287

原创 初步认识bootstrap

今天我希望能初步了解一下bootstrap,首先看一下百科上对于bootstrap的简介:Bootstrap,来自 Twitter,是目前最受欢迎的前端框架。Bootstrap 是基于 HTML、CSS、JAVASCRIPT 的,它简洁灵活,使得 Web 开发更加快捷。它由Twitter的设计师Mark Otto和Jacob Thornton合作开发,是一个CSS/HTML框架。Bootstrap

2017-08-16 14:42:09 389

原创 继续学习css(2)

今天继续学习css!首先是伪元素选择器:1.如果我希望以更加简单的办法来将web界面的段落的首字母大写,可以使用以下方法:p:first-letter{font-size:50px;}2.如果我希望能通过class来在某些文字段落的开头或结尾统一加入某些符号,可以使用以下方法:.class:before{content:"[2]";color:blue;}

2017-08-11 15:15:05 279

原创 继续学习CSS

今天我仍然在继续学习CSS并且继续记录有关知识。首先是属性选择器。它可以统一选定带有某个特定属性的标签并且定义其属性。把属性名称放入中括号中,如[title] { color:gray;  border:1px solid #000; } solid为实线,还有dotted为方点,还有dashed为虚线边框。如果[title=“点击此处登录”] { color:gray;  borde

2017-07-28 12:09:02 264

原创 初步认识CSS

今天我开始初步认识一些CSS的内容。首先是CSS的引用方式,一共有四种,首先是style标签引入方式。  选择器{  (样式表)属性:值;  }   还有就是link标签引入。  其中index.css 中的书写方式与上面style内部标签中的格式相同。还有就是在CSS文件中引入另一个CSS文件。@import url(test.css),注意一般都写在一个CSS文件的开始

2017-07-27 12:22:33 293

原创 今天学习HTML

在学校小学期其间,我们的实践项目是搭建一个安全web界面,我主要负责前端的搭建。但是之前从未接触过前端,所以有很多东西都是一边用一边学,虽然效率高一些,但是没有系统学习过还是感觉力不从心。所以为了不断完善自己,我希望开始学习相关知识。可以说HTML中最重要的结构就是各种标签。最外层是标签,然后还有不可见的和可见的标签。title标签用来确定网页名称,在head标签即可。而标签一共有六个,从大到

2017-07-24 11:59:27 243

原创 今天开始学习js了

今天开始很高兴我注册了优快云博客,并且在暑假期间记录我的学习状况。今天我开始根据网上的视频学习js语言,并将部分知识记录在此。首先是定义变量。语句是:var a=1; 注意添加分号。还有就是注释方法。与java相似,使用双斜杠//为行注释,/* */为段注释。还有一些js中的基本类型,包括Number,String,Boolean,Array,Object等一系列数据。利用var

2017-07-21 12:01:39 384

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除