
Python
文章平均质量分 97
一些科学工具包的使用
爬虫的一些笔记
忆_恒心
计算机研究生,研究方向为人工智能中的自然语言处理
在校期间获过国家奖学金,发表过SCI一区顶刊论文,CCF-B会议论文,51CTO博客专家。
研究领域:C++,自然语言处理中的细粒度情感分析。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Tensorflow2.0 入门与实战学习笔记(四)-函数式Api
如图好处是多输入的模型比如要判断两个是否是同类多输入多输出模型原创 2020-08-14 14:44:28 · 479 阅读 · 0 评论 -
Tensorflow 入门与实践(基础知识)-概述以及单变量的线性回归
单变量线性回归:损失函数:使用绝对值计算不方便方差除以均值先猜测a,b 可是这样的效率是底下不合适的。隐藏我们采用梯度下降梯度下降法:找到损失函数的机制举个例子随机初始化深度学习网络中随机初始化一批的点梯度就是寻找Z沿着导数的方向去求,步幅是会影响下降的速率,在深度学习中,局部最优解从来不是什么问题,简单的说他会比较多处多层感知器单层神经元的缺陷异或的问题神经元的启发多层感知...原创 2020-08-13 16:23:14 · 302 阅读 · 0 评论 -
Tensorflow 入门与实践(基础知识)-逻辑回归+多层感知机
1 多层感知器1.1理论知识1.1.1单层神经元的缺陷异或的问题,翻看笔记就可以,这里主要讲解的是1.1.2神经元的启发多层感知器增加激活函数的时候,是为了输出达到一定提交输出期望的数值1.2.3激活函数:relusimod和tanh容易导致饱和问题Leak relu 用在深层网络中1.3代码实现模型分析:分析:我们设定了输出有十个隐藏单元 Ouput Shape(None,10)(3个变量乘以他们的权重..原创 2020-08-13 16:23:47 · 631 阅读 · 0 评论 -
神经网络基础学习笔记汇总
目录第二章:感应机(人工神经元)二. 感知机2. 简单逻辑电路2.1简单逻辑电路2.2代码实现:2.3导入权重和偏置2.4感知机局限性2.5多层感知机实现(解决异或门)2.6 小结第二章:感应机(人工神经元)感知机作为神经网络起源的算法二. 感知机概念:感知机其实就是流与不流的问题,流就是1不流就是0、0 对应“不传递信号”,1对应“传递信号” x1,x2是输入,y是输出,w1,w2是权值,x*w之和超过阀...原创 2020-08-27 12:41:12 · 1646 阅读 · 0 评论 -
深度学习入门笔记之PyTorch
第一章 深度学习介绍1.1 人工智能人工智能的实力将它分成 大类( 1 )弱人工智能( Artificial Narrow Intelligence , ANI)( 2 )强人工智能( Artificial General Intelligence , AGI)( 3 )超人工智能( Artificial Superintelligence , ASI)1.2 数据挖掘、机器学习与深度学习1.2.1 数据挖掘,数据挖掘就是在大型的数据库中发现有用的信息,并加以分析的过程, 也原创 2020-08-03 16:02:36 · 502 阅读 · 0 评论 -
计算机视觉经典论文阅读---AlexNet论文阅读笔记
这一篇论文是12年的论文可是,他是计算机视觉工作的基石小窗口称之为感受页池化层池化、下采样可以防止过拟合为什么神经网络要用激活函数呢?因为激活函数是非线性的,正是因为非线性的激活函数才为神经网络这个模型引入了非线性,他才能解决非线性的分类问题然而传统的像Sigmoid和tanh这种饱和函数,不饱和的激活函数可以解决梯度消失的问题。softmax归一化在这篇论文中有个有趣的地方局部响应归...原创 2020-08-13 07:58:04 · 626 阅读 · 0 评论 -
神经网络基础学习笔记(七)深度学习
深度学习在CNN的基础上,只需通过 叠加层,就可以创建深度网络8.1 加深网络这个网络使用He初始值作为权重的初始值,使用Adam更新权重参数。把上述内容总结起来,这个网络有如下特点基于3×3的小型滤波器的卷积层。 激活函数是ReLU。 全连接层的后面使用Dropout层。 基于Adam的最优化。 使用He初始值作为权重初始值。识别进度高达了为99.38%出错的图:8.1.2 进一步提高识别精度我们可以采用集成学习、学习率衰减、Data Augmentation原创 2020-08-13 07:57:03 · 444 阅读 · 0 评论 -
神经网络基础学习笔记(六)卷积神经网络
卷积神经网络(Convolutional Neural Network,CNN)7.1 整体结构之前介绍的神经网络中,相邻层的所有神经元之间都有连接,这称为全连接(fully-connected)。CNN7.2 卷积层全连接层存在什么问题呢?那就是数据的形状被“忽视”了。比如,输 入数据是图像时,图像通常是高、长、通道方向上的3维形状。CNN 中,有时将卷积层的输入输出数据称为特征图(feature map)。其中,卷积层的输入数据称为输入特征图(input feature ma原创 2020-08-13 07:55:48 · 2134 阅读 · 0 评论 -
神经网络基础学习笔记(五) 与学习相关的技巧
目录与学习相关的技巧6.1 参数的更新6.1.1 探险家的故事6.1.2 SGD6.1.3 SGD的缺点6.1.4 Momentum6.1.5 AdaGrad6.1.6 Adam6.1.7 使用哪种更新方法呢6.1.8 基于MNIST数据集的更新方法的比较6.2 权重的初始值6.2.1 可以将权重初始值设为0吗6.2.2 隐藏层的激活值的分布6.2.3 ReLU的权重初始值6.2.4 基于MNIST数据集的权重初始值的比较6.3 Bat原创 2020-07-27 17:54:27 · 1176 阅读 · 0 评论 -
神经网络基础学习笔记(四)误差反向传播法
前言:数值微 分虽然简单,也容易实现,但缺点是计算上比较费时间。本章我们将学习一 个能够高效计算权重参数的梯度的方法——误差反向传播法正确理解误差反向传播法:一种是基于数学式; 另一种是基于计算图(computational graph)5.1 计算5.1.1 用计算图求解节点用○表示,○中是计算的内 容。也可以表示为:...原创 2020-07-24 23:34:49 · 2346 阅读 · 0 评论 -
神经网络基础学习笔记(二)神经网络
三、神经网络解决问题:上一章能用与或非解决各种函数问题,但是权重是人工设定的,本章开始根据神经网络的实现,利用已有的数据学习合适的权重作为参数来解决上面的问题。3.1 从感知机到神经网络3.1.1神经网络例子:神经网络实际跟感知机一样3.1.2函数转换:借鉴:方同学整理的公式图图片来源:https://me.youkuaiyun.com/qq_37431224根据上图的函数转换,我们就能转换为h(x),这就是激活函数激活函数是连接感知机和神经网络...原创 2020-07-22 10:17:05 · 838 阅读 · 0 评论 -
神经网络基础学习笔记(三)神经网络的学习
前言:上一章讲了神经网络前向传播内容,这一章讲如何根据数据训练出相关权重参数的过程。我们在实战中直接得出了参数权重,接下爱我们要学习4.1从数据中学习介绍神经网络的学习,即利用数据决定参数值的方法。我们将针对上一个实验的训练集进行学习4.1.1数据驱动图像的特征量通常表示为向量的形式。前面学习过分类算法SVM以及KNN,我们手动提取特征向量。深 度 学 习 有 时 也 称 为 端 到 端 机 器 学 习(end-to-end machine learning)。这里所说的端到原创 2020-07-23 23:54:06 · 1233 阅读 · 0 评论 -
神经网络基础学习笔记(一)感应机(人工神经元)
目录第二章:感应机(人工神经元)二. 感知机2. 简单逻辑电路2.1简单逻辑电路2.2代码实现:2.3导入权重和偏置2.4感知机局限性2.5多层感知机实现(解决异或门)2.6 小结第二章:感应机(人工神经元)感知机作为神经网络起源的算法二. 感知机概念:感知机其实就是流与不流的问题,流就是1不流就是0、0 对应“不传递信号”,1对应“传递信号” x1,x2是输入,y是输出,w1,w2是权值,x*w之和超过阀...原创 2020-07-21 12:38:06 · 706 阅读 · 5 评论 -
统计学方法&机器学习实战 (七) AdaBoost原算法
前言:当做重要决定时,大家可能都会考虑西区多个专家而不只是一个人的意见。假期血虚处理问题时又何尝不是呢?这就是原算法(meta-algorithm)背后的思路。组合结果则被成为集成方法(ensemble method)或者元算法(meta-algorithm)Bagging、Boosting二者之间的区别样本选择上:Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独立的。 Boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化。原创 2020-07-20 15:12:49 · 1230 阅读 · 4 评论 -
统计学方法&机器学习实战 (五、六) 回归、支持向量机
前言:这部分知识,理论上大致比较好理解,也做了相应的笔记,虽然支持向量机有些公式未能理解透,但是由于时间有限,目前主要学会使用SKLEARN进行实现,重点工作在神经网络的学习上。这部分学习笔记整理如下:学习笔记:学习笔记 回归 支持向量机 理论知识-线性回归、逻辑回归 理论知识-SVM支持向量机 代码实现-线性回归 理论知识查缺补漏 代码实现-逻辑回归 sklearn实现SVM 说明:共有六篇读书笔记,其中代码实现是吴恩达老师的课后作业..原创 2020-07-18 16:47:44 · 358 阅读 · 0 评论 -
统计学方法&机器学习实战(三) 决策树
理论难点:实现难点以及注意事项:实现笔记截图参考资料:原创 2020-07-18 16:15:37 · 922 阅读 · 0 评论 -
统计学方法&机器学习实战(二) K近邻算法
理论知识难点:用jupyternote book 的ipynb书写笔记:实现代码笔记截图:参考资料:原创 2020-07-18 13:01:33 · 646 阅读 · 0 评论 -
统计学方法&机器学习实战(一) 机器学习基础
前言:大致看完了吴恩达老师的视频后,对于机器学习有了一定的了解,但是无监督学习部分只理解了K-Means,监督学习算是入门了可是视屏听完以及完成了笔记后,感觉这部分算法掌握的不全,故重新看书。学习的方法:照着书本上代码敲,机器学习实战、参考资料:Apache CN 的机器学习基础笔记统计学习方法-李航Jack Cui的机器学习笔记https://cuijiahua.com/blog/ml/...原创 2020-07-18 12:52:32 · 525 阅读 · 0 评论 -
统计学习方法-朴素贝叶斯(补充)
1.????k近邻法是基本且简单的分类与回归方法。????k近邻法的基本做法是:对给定的训练实例点和输入实例点,首先确定输入实例点的????k个最近邻训练实例点,然后利用这????k个训练实例点的类的多数来预测输入实例点的类。2.????k近邻模型对应于基于训练数据集对特征空间的一个划分。????k近邻法中,当训练集、距离度量、????k值及分类决策规则确定后,其结果唯一确定。3.????k近邻法三要素:距离度量、????k值的选择和分类决策规则。常用的距离度量是欧氏距离及更一般的pL距离。????原创 2020-07-18 16:23:08 · 628 阅读 · 0 评论 -
统计学方法&机器学习实战(四) 朴素贝叶斯算法
理论难点:理论知识强烈推荐看Jack Cui 真是讲得非常好,理论也太通俗了。这部分实现难点:原创 2020-07-18 16:21:49 · 1245 阅读 · 0 评论 -
统计学习方法-理论知识学习笔记
目录前言:1 统计学习的方法概论1.1 统计学习1.1.1 统计学习特点1.1.2 统计学习的对象1.1.3 统计学习的目的1.1.4 统计学习的方法1.1.5 统计学习的研究1.1.6 统计学习的重要性1.2 监督学习1.2.1 基本概念1.3 统计学习三要素1.3.1 模型1.3.2 策略1.3.3 算法1.4 模型评估与模型选择1.4.1 训练误差与测试误差1.5 正则化与交叉验证1.5.1 正则化1.5.2 交叉验.原创 2020-07-11 17:25:45 · 1598 阅读 · 0 评论 -
机器学习基础-机器学习练习 7- K-means 和PCA(主成分分析)
前言:将实现K-means聚类,并使用它来压缩图像。 我们将从一个简单的2D数据集开始,以了解K-means是如何工作的,然后我们将其应用于图像压缩。 我们还将对主成分分析进行实验,并了解如何使用它来找到面部图像的低维表示。实现原理:我们将实施和应用K-means到一个简单的二维数据集,以获得一些直观的工作原理。 K-means是一个迭代的,无监督的聚类算法,将类似的实例组合成簇。 该算法通过猜测每个簇的初始聚类中心开始,然后重复将实例分配给最近的簇,并重新计算该簇的聚类中心。我们要实.原创 2020-07-09 17:55:54 · 1860 阅读 · 0 评论 -
Andrew Ng-机器学习基础笔记-聚类
目录13 聚类(Clustering)13.1 无监督学习:简介13.2 K-均值算法13.3 优化目标13.4随机初始化14降维(Dimensionality Reduction)14.1 动机一:数据压缩14.3主成分分析问题14.4 主成分分析算法14.5选择主成分的数量14.6 重建的压缩表示13 聚类(Clustering)13.1 无监督学习:简介无监督学习是让机器学习无标签的数据,而不是我们之前实验的有标签的数据我们拿到没有标...原创 2020-07-08 16:12:19 · 411 阅读 · 0 评论 -
机器学习基础-机器学习练习 6 - 支持向量机
目录前言:第一部分练习-绘图分析线性可分的用非线性决策边界。第二部分的练习:小结前言:在本练习中,我们将使用支持向量机(SVM)来构建垃圾邮件分类器。 我们将从一些简单的2D数据集开始使用SVM来查看它们的工作原理。 然后,我们将对一组原始电子邮件进行一些预处理工作,并使用SVM在处理的电子邮件上构建分类器,以确定它们是否为垃圾邮件。第一部分练习-绘图分析线性可分的看看线性SVM如何对数据集进行不同的C值(类似于线性/逻辑回归中的正则化项)。impor原创 2020-07-07 17:59:34 · 1222 阅读 · 0 评论 -
Andrew Ng-机器学习基础笔记-SVM
前言:因为书写难度以及后面需要补充等原因,写完每一小部分在进行一次合并。12 支持向量机(Support Vectir Machines)12.1 优化目标在监督学习中,许多学习算法的性能 都非常类似,因此,重要的不是你该选择使用学习算法 A 还是学习算法 B,而更重要的是, 应用这些算法时,所创建的大量数据在应用这些算法时,表现情况通常依赖于你的水平。与逻辑回归和神经网络相比,支持向量机,或者简称 SVM,在学习复杂的非线性 方程时提供了一种更为清晰,更加强大的方式这部分学习非常重原创 2020-07-06 23:17:03 · 673 阅读 · 0 评论 -
Andrew Ng-机器学习基础笔记(下)-Python实现代码
前言:Andrew Ng-机器学习基础笔记(上)-Python实现代码https://blog.youkuaiyun.com/qq_37457202/article/details/10684877810. 应用机器学习的建议10.1 决定下一步做什么引语:如果你想改进一个机器学习的性能。比如你发现预测房价时,产生了巨大的误差(线性回归),现在你的问题是如何改进。通常人们的办法1、有两倍甚至十倍的数量的训练集-花费更多的时间在手机训练数据上2、精心挑选小部分以防止过拟合然而:1、原创 2020-06-26 08:45:59 · 872 阅读 · 0 评论 -
Python爬虫练习四-scrapy框架练手
前言:爬虫框架scrapy,练手-爬取丑事百科配置conda 安装conda install -c conda-forge scrapypip install Scrapscrapy依赖一些相关的库:lxmlparselw3libtwistedcryptography and pyOpenSSL生成初始化项目文件...原创 2020-06-22 23:26:40 · 554 阅读 · 0 评论 -
机器学习基础-逻辑回归练习
目录1 前言2 练习2.1 查看数据图像:2.2 sigmoid函数2.3 代价函数:2.4 梯度下降函数2.5 预测函数1 前言ex2-logistic regression在这个练习中,你将使用逻辑回归来判断学生是否被大学录取在训练的初始阶段,我们将要构建一个逻辑回归模型来预测,某个学生是否被大学录取。设想你是大学相关部分的管理者,想通过申请学生两次测试的评分,来决定他们是否被录取。现在你拥有之前申请学生的可以用于训练逻辑回归的训练样本集。对于每一个训练样本,原创 2020-06-19 18:03:52 · 2095 阅读 · 0 评论 -
Andrew Ng-机器学习基础笔记(上)-Python实现代码
目录1.引言:1.1Welcome:1.2机器学习是什么?1.3监督学习1.4无监督学习:总结:2.线性回归单变量的线性回归2.1模型表示2.2代价函数2.3代价函数的直观理解:2.4 代价函数的直观理解2.5 梯度下降(Gradient descent)2.6 梯度下降的直观理解2.7梯度下降的线性回归3、线性代数回顾3.1 矩阵和向量3.2 加法和标量陈发3.3 矩阵向量乘法3.4 矩阵乘法3.5 矩阵乘法的性质3.原创 2020-06-19 11:47:34 · 2206 阅读 · 2 评论 -
AI基础学习-NumPy
前言:参照了黄博士的学习笔记,练习了一下,记录一下学习笔记!https://github.com/fengdu78/Data-Science-NotesNumPy(Numeric Python)提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。多为很多大型金融公司使用,以及核心的科学计算组织如:Lawrence Livermore,NASA用其处理一些本来使用C++,Fortran或Matlab等所做的任务。代码练习:imp.原创 2020-06-13 22:21:46 · 375 阅读 · 0 评论 -
Python爬虫练习三-多线程爬虫
genvent、monkey.patch_all基础练习:import threadingimport time#创建一个线程子类:class MyThread(threading.Thread): def __init__(self,threadID,name,couter): threading.Thread.__init__(self) self.threadID = threadID self.name = name.原创 2020-06-07 15:22:40 · 471 阅读 · 0 评论 -
爬虫练习(四)--ip地址问题
前言:大多数网站会根据访问的请求头,分析是否为人为请求原因:Python的请求头Host: 127.0.0.1:5000User-Agent: python-requests/2.21.0Accept-Encoding: gzip, deflateAccept: */*Connection: keep-alive反爬虫@app.route('/getInfo')def hello_world(): if(str(request.headers.get('Us原创 2020-06-07 15:16:26 · 480 阅读 · 0 评论 -
Python基础练习-组织文件
前言:将(MM-DD-YYYYY)改成(DD-MM-YYYY)项目:检查当前工作目录的所有文件名,寻找美国风格的日期 如果找到,将改文件改名,交换月份和日期的位置,使之成为欧洲风格具体实现:创建一个正则表达式,可以识别到没过风格日期的文本模式 调用os.listdir(),找出工作目录中的所有文件 循环遍历每隔文件名,涌shutil.move()对改文件改名#! python3# renameDates.py - Renames filenames with America.原创 2020-06-04 08:17:37 · 317 阅读 · 0 评论 -
Python爬虫练习二-定时抓取网站的更新内容
前言:通过第一阶段的学习,模范,第二阶段主要自己思考一下文件结构总结:自主分析稍后补充原创 2020-06-04 08:15:32 · 4746 阅读 · 1 评论 -
Python基础学习
前言:过了一下Python 基础,和C、JAVA不一样,数据处理很灵活,需要时间适应。控制流 函数 列表 字典和结构化数据 字符串操作(很强大)基础练习猜数字#This is a guess the number gameimport randomscNumber=random.randint(1,20)print("input number between 1 and 20")#Ask the player to guess 6 timesfor guessesTo原创 2020-06-01 23:30:31 · 322 阅读 · 0 评论