
python
文章平均质量分 89
SY_2333
这个作者很懒,什么都没留下…
展开
-
【爬虫】python使用selenium抓取淘宝中的商品数据
前言最近因为项目需要又得抓一批数据,和之前的scrapy不同,这次选择使用selenium来爬取。两种方法的区别如下:scrapy之类的库是基于网络请求来爬取的,也就是直接向目标服务器发送http请求,在这个过程中需要自己构造请求字段也就是json格式的request body。selenium一类的库是基于自动化测试的,我们只需要知道想要访问的链接就好,其它的(异步加载图片、信息之类的)交给浏览器来做。也因此在使用时需要额外下载浏览器以及对应驱动,比如googledriver。总而言之,虽然s原创 2021-09-13 16:46:32 · 4449 阅读 · 0 评论 -
【PyTorch】实现一个简单的CNN图像分类器
算是一个简单的deep-learning框架。从加载数据集开始,包括了模型设计、训练、测试等过程。一. 加载数据二. 模型设计三. 训练四. 测试原创 2021-02-10 20:16:42 · 12313 阅读 · 0 评论 -
【读书笔记】《深度学习进阶,自然语言处理》总结记录
最近需要开始做nlp相关的东西,参考知乎的问答列了一个书单,其中有这本:《深度学习进阶,自然语言处理》。断断续续花了几周时间把这本书看完了,总结回顾了一下书中的大致内容,并在此做一个记录,不过详细的地方大家还是买书去看比较好。这本书比较好的就是不止有原理性地描述,还有正向与反向传播计算图的说明以及不借助pytorch、tensorflow等深度学习库的底层计算实现。由于主要涉及深度学习,在传统机器学习算法以及一些公式的推导上相比西瓜书和统计学习方法来说没有那么详细,但总的来说是一本很不错的书。一、神经网原创 2021-02-05 21:59:21 · 2181 阅读 · 1 评论 -
【Pytorch】我在kaggle Titanic竞赛上的整个流程记录
前言第一次尝试在kaggle上找机器学习(ML)项目练手,Titanic问题是官方的入门项目,在此做一个记录。kaggle官网:https://www.kaggle.com/加入竞赛进入官网之后左边那一栏的compete表示ML竞赛项目,点击某项竞赛后会有项目说明(Overview),数据集(Data)以及其他人对此项目的一些讨论(Notebooks、Discussion),点击join compete即可加入此竞赛。接下来要做的事就是使用数据集完成Overview中说明的任务,并将模型在测试集上原创 2020-09-03 15:41:58 · 1283 阅读 · 1 评论 -
【pytorch】手动在网络中实现正向传播与反向传播代码解析
代码与教程此博文是关于pytorch中文教程中手动在网络中实现前向传播和反向传播部分的代码解析。先贴上教程来源与代码:教程为:https://pytorch.apachecn.org/docs/0.3/pytorch_with_examples_pytorch-tensors.html代码如下:import torchdtype = torch.FloatTensor# dtype = torch.cuda.FloatTensor # 取消注释以在GPU上运行# N 批量大小; D_i原创 2020-09-03 10:08:05 · 2253 阅读 · 0 评论 -
python3是如何使用线程的(Event与Condition)
创建线程python3中使用threading来创建线程,代码如下:from threading import Threadt = Thread(target = myfunction,args=(function_arg1,...))t.start()使用target指定线程需要进行的操作,创建一个线程实例后,在调用start()方法之前,线程不会被执行。可以使用t.is_alive()查询线程是否在运行。线程同步操作Event可以使用Event来对线程进行阻塞操作,基本的使用方法如下:原创 2020-08-31 16:14:55 · 1186 阅读 · 0 评论 -
python使用pandas将数据记录进表格
构造DataFrame在pandas中,表格数据基本都是以DataFrame保存的,所以一般需要先将普通数据转换为DataFrame格式再进行操作,有5种常用方法。引入库import pandas as pd,没有的需要下载:pip install pandas1. 由Series数据转换这种方式指定每一列为一个Series数据并给出列名,要求必须指定列名不然会报错,不要求每一个Serie...原创 2019-05-10 10:10:47 · 14577 阅读 · 0 评论 -
Pytorch中的gather方法
官方说明gather可以对一个Tensor进行聚合,声明为:torch.gather(input, dim, index, out=None) → Tensor一般来说有三个参数:输入的变量input、指定在某一维上聚合的dim、聚合的使用的索引index,输出为Tensor类型的结果(index必须为LongTensor类型)。#参数介绍:input (Tensor) – The sou...原创 2019-05-14 14:51:47 · 7467 阅读 · 3 评论 -
Python利用NLPIR与gensim做中文词嵌入
gensim中的word2vec模块首先下载gensim:pip install gensim本来我的环境是python2.7,pip下载失败,提示error: command 'E:\\Anaconda2\\Scripts\\gcc.bat' failed with exit status 1,找了一圈没找到原因,猜想可能是gcc版本不够,于是重装了Anaconda,换成了python3.6...原创 2019-04-19 11:13:14 · 819 阅读 · 1 评论 -
Python使用pandas读取excel表格数据
导入import pandas as pd若使用的是Anaconda集成包则可直接使用,否则可能需要下载:pip install pandas读取表格并得到表格行列信息df=pd.read_excel('test.xlsx')height,width = df.shapeprint(height,width,type(df))表格如下:得到如下输出,为一个4行5列的数据块:...原创 2019-04-08 16:14:04 · 102429 阅读 · 12 评论