
python笔记
文章平均质量分 57
B站:阿里武
中山大学 数据科学与计算机学院 专业硕士
展开
-
解决用anaconda安装scrapy后,在使用scrapy时报错
python版本为3.7 因为用anaconda安装scrapy非常方便,会自动下载所依赖的包, 所以就使用anaconda安装scrapy, 非常舒服,安装很成功conda install scrapy问题出现当使用scrapy时出现报错, 这里我是创建新项目,发现报错 报错信息如下:Traceback (most recent call last): File...原创 2018-08-05 22:19:28 · 14845 阅读 · 4 评论 -
Python多进程实现并行化随机森林
前言Python其实已经实现过随机森林, 而且有并行化的参数n_jobs 来设置可以使用多个可用的cpu核并行计算。n_jobs : int or None, optional (default=None)The number of jobs to run in parallel for both fit and predict. None means 1 unless in a jobl...原创 2019-07-04 00:14:35 · 4157 阅读 · 1 评论 -
Python多进程队列间传递对象
前言在python 需要在队列中传递对象, 会出现进程不能正常退出的情况。其原因是因为 在父进程 向子进程传入的Queue对象不对, Queue对象正常是子进程之间的信息传递, 而当我在父进程 创建一个Queue, 把它当参数传入到子进程时, 这时就会出现子进程无法退出的情况解决方案将主进程要传入自进程的Queue的初始化方法改为from multiprocessing import...原创 2019-07-02 20:55:56 · 3791 阅读 · 0 评论 -
利用BeautifulSoup去除HTML指定标签和去除注释
去除指定标签from bs4 import BeautifulSoup#去除属性ul[s.extract() for s in soup("ul")]# 去除属性svg[s.extract() for s in soup("svg")]# 去除属性script[s.extract() for s in soup("script")]去除注释from bs4 import Bea...原创 2018-11-05 01:52:37 · 14409 阅读 · 0 评论 -
python处理转载博客html
前景在转载别人博客的时候通常我们会通过复制html然后放到编辑器里面, 但是通常html里有很多杂七杂八的东西, 比如script, svg这些标签导致排版出现问题例如由lu标签引起的由svg标签引起的当然要说你直接把不要的东西删除也可以, 但是作为一个程序员,能用电脑做的事当然是不用自己做啦, 于是就有了下面一步代码实现代码采用Python, 因为Python有Beautiful...原创 2018-11-04 23:25:31 · 1207 阅读 · 0 评论 -
用python爬取B站在线用户人数
最近在自学Python爬虫,所以想练一下手,用python来爬取B站在线人数,应该可以拿来小小分析一下设计思路首先查看网页源代码,找到相应的html,然后利用各种工具(BeautifulSoup或者直接正则表达式)得到数据, 然后把数据和当且时间保存到本地,并且设置一定的时间间隔,反复得到数据, 不过后面我发现B站在线人数是通过js动态生成的,后面会提到实现过程观察HTML...原创 2018-08-07 19:10:45 · 9954 阅读 · 9 评论 -
用python爬虫监控优快云博客阅读量
代码如下, 会生成一个excel表格,存储了所有文章的阅读量,import requestsimport datetimeimport osimport xlwtfrom xlrd import open_workbookfrom xlutils.copy import copyfrom bs4 import BeautifulSoupdef get_page_source(...原创 2018-08-11 10:08:22 · 5005 阅读 · 2 评论 -
python新添加excel数据
相关库import osimport xlwtfrom xlrd import open_workbookfrom xlutils.copy import copy1.判断是否存在xls文件, 不存在则创建import osimport xlwtif not os.path.exists("ReadRecord.xls"): workbook = xlwt.Work...原创 2018-08-11 10:00:22 · 5182 阅读 · 0 评论 -
Pandas和常见数据处理小模块
前言pandas 确实很好用, 但是网上的教程参差不齐, 找到可以用的比较花时间, 所以自己总结了一些会常常用到的。根据某一列找另一列 import pandas as pd # 根据imagename 找Cloth_label label = train_lable.loc[train_lable.Image == imagename]['Cloth_label']...原创 2019-07-05 13:35:33 · 467 阅读 · 0 评论