VerdureChen-优快云博客

原创使用pytorch进行BERT inference时遇到的一些问题

1. 数据集过大情况下，使用np.memmap内存映射读取大文件，在前几次程序运行时无错误，今天忽然报错：ValueError: cannot mmap an empty file. 这句话的意思是无法映射空文件，检查原因，发现是需要映射的大文件目录发生了改变，但并未在程序中修改该文件的路径导致。2. GPU并行进行BERT inference的设置：由于数据量达到百万条，inference的速度相当慢，因此采用多GPU并行对数据进行测试，这里参考了这篇文章的做法，不同之处在于if torch.c

2020-09-16 20:55:37 1261

原创使用pyinstaller对scrapy+selenium+pyqt5项目进行打包常见问题总结以及主要过程记录

前一段时间构建了一个使用scrapy+selenium+pyqt5的爬虫可视化界面，用于爬取知乎、百度百家号以及新浪新闻，在界面调试无误后，就需要使用pyinstaller进行打包，将项目变成更容易移植的exe文件。这篇博文主要用于记录打包的主要过程以及问题的解决方法。1. pyinstaller的安装一般来说，使用常用的pip命令即可安装，但我在安装时遇到了如下问题：Installing build dependencies ... errorERROR: Command errored

2020-08-12 23:34:09 2700

原创 python scrapy+mongodb爬取百度百家号与新浪新闻

此前我爬取了zhihu的相关问答，为了更好地收集信息，原本的打算是爬取百度资讯的内容，但在对页面进行分析后发现，在百度资讯的搜索结果中，百家号的页面格式比较统一，便于爬取；而其他媒体网站的页面格式比较繁杂，并且在百度特定关键词搜索结果中，像腾讯新闻、新浪新闻等比较具有可信度，并且格式较为统一的页面，数量其实非常少，所以从百度资讯的媒体网站爬取数据是不太现实的。此时我发现，新浪具有新闻的检索功能，来源较为广泛，并且新浪作为转载网站，为页面提供了较为统一清晰的格式。所以最终我决定爬取百度百家号+新浪新闻信息。

2020-07-29 16:21:02 2667 1

原创在scrapy通过配置文件进行自定义参数的爬虫并行

在同个项目下写了多个爬虫之后，如果我们需要同时并行运行多个爬虫，需要怎么做呢？关于这个，我找到了两篇可以解决问题的博文，主要思路是在爬虫目录下新建commands目录，重新定义Command函数,通过这个思路，我们可以做到的是重新定义启动爬虫时的命令行参数，收集我们需要传入内部的参数，并且再通过Command函数解析，并传递给每个运行的爬虫。其中一篇博文解释的思路比较清晰，耐心读就可以读懂：https://blog.youkuaiyun.com/qq_38282706/article/details/80991

2020-07-29 11:08:28 772

原创 scrapy+selenium按照某一主题爬取zhihu相关内容

紧接前一篇分析zhihu反爬方法的博文，经过好几天的折腾，最终我还是选择通过百度搜索相关的问题，直接对问题详情页进行解析。这样做的好处在于知乎问题详情页是可以使用selenium爬取的，不必与反爬斗智斗勇，也就不用担心万一很快进一步升级反爬策略后爬虫失效，不足之处在于爬取速度肯定比不上requests请求，不过对我来说影响不是很大，所以也算找到了一种可行的方法啦。今天这篇文章将详细记录一下scrapy+selenium+mongodb爬取zhihu某主题问题与答案的方法。爬虫的总体流程很简单：使用百

2020-07-18 12:35:46 872

MarrieChen的博客

原创使用pytorch进行BERT inference时遇到的一些问题

原创使用pyinstaller对scrapy+selenium+pyqt5项目进行打包常见问题总结以及主要过程记录

原创 python scrapy+mongodb爬取百度百家号与新浪新闻

原创在scrapy通过配置文件进行自定义参数的爬虫并行

原创 scrapy+selenium按照某一主题爬取zhihu相关内容

原创爬取zhi hu的小记录

原创项目准备——爬虫及数据存储部分

原创虚拟环境下ubuntu+cuda10.0+tensorflow1.13.1的运行

原创 pytorch使用DataParallel进行GPU并行训练，以及AttributeError: 'DataParallel' object has no attribute '**'错误的解决

原创 ANDROID解决apk生成时Multiple dex files define问题的过程

转载 OkHttp上传Json数据

原创网络安全与管理作业的相关记录

原创关于python使用wordcloud生成繁体字词云的方法

原创解决python中出现“str”object is not callable的记录

原创 python爬虫备忘（6）

原创 yield关键字作用

原创 python爬虫备忘（5）

原创 python爬虫淘宝比价

原创 python爬虫备忘（4）

原创 python爬虫实例备忘

原创 python爬虫备忘（3)

原创 ps备忘2

原创 python爬虫备忘（2）

原创请允许我...ps学习备忘！

转载 python学习备忘

转载 python爬虫备忘

转载学习js的day3

原创继续学习javascript

原创学习bootstrap的day3

原创继续学习bootstrap

原创初步认识bootstrap

原创继续学习css（2）

原创继续学习CSS

原创初步认识CSS

原创今天学习HTML

原创今天开始学习js了

空空如也

空空如也