- 博客(9)
- 收藏
- 关注
原创 爬取豆瓣电影TOP100
爬虫首先我们在网站中打开我们要爬的网站“http://maoyan.com/board/4”这就是豆瓣高分电影前100的榜单.然后我们点击f12,再刷新一次,就可以看到网页的基本信息了。这时候我们来看一下第一部‘我不是药神中的代码信息。’一个dd节点为一个电影的全部信息。我们用正则表达式的方法去分析上面的代码,首先是class为board-index的排名信息。我们用正则表达式应该是这么去写<dd>.*?board-index.*?>(.*?)</i>
2021-09-26 08:47:56
2298
原创 正则表达式
爬虫中的简单的正则表达式(1)#常用的匹配方式 math()方法import recontent='Hello 123 4567 World_This is a Regex Demo'print(len(content))result=re.match("^Hello\s\d\d\d\s\d{4}\s\w{10}",content) #^代表匹配字符串的开头,、d表示匹配数字,、s表示匹配空格,、w表示匹配字母及下划线。print(result)print(result.group())
2021-09-16 10:06:47
222
原创 自学爬虫第一天
自学爬虫第一天1.关于爬虫时合理的技巧:运用timeout方法来让爬取东西时避免某些网站响应时间过长。import socketimport urllib.requestimport urllib.errortry: a=urllib.request.urlopen('https://www.baidu.com/',timeout=0.01) print(a.read().decode('utf-8'))except urllib.error.URLError as e:
2021-09-15 11:11:16
256
原创 简单的二分类实践(附代码)
首先导入基本所需的数据库## ****## 基础函数库import numpy as np ## 导入画图库import matplotlib.pyplot as pltimport seaborn as sns## 导入逻辑回归模型函数from sklearn.linear_model import LogisticRegression****紧接着构建自己所需的数据集,并查看模型的权重w。## 构造数据集x_fearures = np.array([[-1, -2], [
2021-03-19 13:12:56
2074
原创 pycharm中使用镜像源下载各类包
今天下载机器学习中用到的模型函数包sklearn,结果在setting里下载的速度真的慢的离谱,于是就想试着用国内的镜像源下载。首先举几个国内的镜像源目录:清华:https://pypi.tuna.tsinghua.edu.cn/simple阿里云:http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/华中理工大学:http://pypi.hustunique.com/山东理工大
2021-03-17 00:14:35
8831
5
原创 入门卷积神经网络(四)误差函数(损失函数)
误差函数(损失函数)监督学习的神经网络需要一个函数来测度模型的输出值p和真实因变量值y之间的差异,一般这种差异被称为残差或者误差。但一个模型完美时(虽然不存在),其误差为0.当模型存在问题时,误差不管是负值还是正值,都偏离0.误差离0越近,说明模型越好。常用的误差函数均方误差这里 Y i 表示神经网络的输出,Yi’'表示监督数据,i表示数据的维度。这种损失函数通常用在实数值连续变量的回归问题上,并且对于残差较大的情况给予更多的权重。交叉熵损失:log表示以e为底的自然对数,Yk是神经网络
2020-10-21 20:26:53
10165
原创 入门卷积神经网络学习(三) 激活函数
什么是激活函数输入信号的总和会被函数h(x)转换,转换后的值就是输出y。函数h(x)就被称为激活函数。举个例子:输入信号x1,x2.经过权重w1,w2偏置b的计算总和为a.a通过激活函数h()输出y.那么我们为什么要用激活函数呢?因为如果没有激活函数,那么我们的输出信号仅仅是一个线性函数。它没有办法解决复杂的数据。激活函数的主要作用是为隐含层(中间层)引入非线性。加入非线性,多层神经网络的预测能力李就得到了显著的提高,对于后向传播算法,激活函数必须可微。所以神经网络的激活函数必须是非线性函数
2020-10-20 23:09:51
785
原创 入门卷积神经网学习(二) 池化层
池化层我们计算卷积时,会用卷积核滑过特征图的每一个像素。如果特征图的像素很大,那么卷积层的计算量就会很大。所以我们通常在几个卷积层后加一个池化层,以降低特征图的分辨率。图1代表的最大池化层。我们将4X4的特征图分为了4部分,而池化后的输出图的取值为4个部分中的最大值。图2位平均池化层也就是池化后的结果是取每部分的平均值。池化层主要作用(关于第二点,可以参考下面这个链接:https://www.zhihu.com/question/36686900)1.就是降维,也就是我们上面所说的降低图
2020-10-14 22:59:46
923
原创 入门卷积神经网络学习(一):卷积层
卷积层当一个深度神经网络以卷积层为主体时,我们称为卷积神经网络。卷积运算:图片分黑白和彩色,在图像里我们相应地有灰度图像和灰色图像。对于灰度图像,由于只有阴暗的区别,因此我们只需要一个数字就可以表示出不同的灰度。如:0表示最暗的黑色,255表示为最亮的白色。对于彩色图像我们就用(R,G,B)三个数字表示一个颜色。也就是说图像是三维形状的。当输入对象为图像时,卷积层会以3维数据的形式接受输入数据,并同样以3维数据的形式输出者下一层。神经网络的卷积层就是运用卷积运算对原始图像或者上一层的特征进行变换的
2020-10-14 19:52:29
1201
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人