
机器学习
文章平均质量分 90
CS创新实验室
致力于计算机、人工智能相关领域的研发和教学
展开
-
深度学习中的 Batch 机制:从理论到实践的全方位解析
详细解释 batch_size 的设置艺术原创 2025-04-04 15:17:50 · 920 阅读 · 0 评论 -
AI Studio中的几个魔法命令
AI Studio 本质上就是在线的IPython,它的使用方法和常用的Jupyter完全一样。这里将几个常用的魔法命令总结演示,以便初学者查阅。? 和 ??在对象后面有一个?,表示可以获取此对象的相关信息,特别是帮助信息。如果是两个??,则可以获取该对象更加详细的信息,比如源码。当然,有时候两者显示也一样。以上所说对象可以是IPython中自带的、也可以是导入的、也可以是自己定义的。import numpy as npnp.array?np.array??%和%%%被称作行魔法命令原创 2020-07-10 15:49:06 · 695 阅读 · 0 评论 -
用幂律分布研究工资收入
本文系即将出版的《机器学习数学基础》中的“第5章概率”的“5.3.3 连续型随机分布”一节中“幂律分布”节选。本书将由电子工业出版社出版。相关主题网站:https://qiwsir.gitee.io/mathmetics/微软曾在一篇报告中称,Windows和Office中80%的错误是由检测到的20%的错误导致的(参阅:https://www.crn.com/news/security/18821726/microsofts-ceo-80-20-rule-applies-to-bugs-not-ju.原创 2021-07-19 13:44:38 · 717 阅读 · 1 评论 -
从DataFrame中删除列
在操作数据的时候,DataFrame对象中删除一个或多个列是常见的操作,并且实现方法较多,然而这中间有很多细节值得关注。首先,一般被认为是“正确”的方法,是使用DataFrame的drop方法,之所以这种方法被认为是标准的方法,可能是收到了SQL语句中使用drop实现删除操作的影响。import pandas as pdimport numpy as npdf = pd.DataFrame(np.arange(25).reshape((5,5)), columns=list("abcde"))原创 2021-03-16 09:35:07 · 48505 阅读 · 1 评论 -
反向传播算法的工作原理(1)
反向传播算法是神经网络中的重要算法,通过它能够快速计算梯度,进而通过梯度下降实现权重和偏置参数的更新反向传播算法最初是在20世纪70年代被引入的,但直到1986年大卫·鲁梅尔哈特、杰弗里·辛顿和罗纳德·威廉姆斯合作的一篇著名论文问世后,人们才充分认识到它的重要性。这篇论文描述了几种神经网络,其中反向传播比以前的方法快得多,使人们有可能利用神经网络来解决以前无法解决的问题。如今,反向传播算法是神经网络中所要学习的主要内容。本文的内容中涉及到更多的数学问题。如果你对数学不感兴趣,可以把反向传播当作一个黑匣子原创 2020-09-25 17:18:24 · 2306 阅读 · 0 评论 -
激活函数的“3W”
学习神经网络,必然会遇到激活函数,那么:什么是激活函数?What为什么要用激活函数?Why应该选择哪个激活函数?Which本文尝试对此进行探讨。神经网络的基本思想人工神经网络是仿照了大脑的神经网络系统来处理数据的,它由节点组成了层,通常一个网络又有多个层(除了输入层和输出层之外,有多个隐藏层),每个节点就是一个神经元。信息从输入层进入,传到隐藏层(如图所示),按照简化的模型,输入数据乘以权重(weight)加上一个偏置(bias),然后应用激活函数得到该神经元的输出,再将此输出传给下一层的神原创 2020-09-23 11:46:52 · 228 阅读 · 0 评论 -
不写爬虫,也能读取网页的表格数据
引言pandas中的read_html()函数是将HTML的表格转换为DataFrame的一种快速方便的方法,这个函数对于快速合并来自不同网页上的表格非常有用。 在合并时,不需要用爬虫获取站点的HTML。但是,在分析数据之前,数据的清理和格式化可能会遇到一些问题。在本文中,我将讨论如何使用pandas的read_html()来读取和清理来自维基百科的多个HTML表格,以便对它们做进一步的数值分析。基本方法在第一个例子中,我们将尝试解析一个表格。这个表格来自维基百科页面中明尼苏达州的政治部分(https原创 2020-09-17 16:01:57 · 2071 阅读 · 0 评论 -
数据科学的软件工程技巧和最佳实践
如果你对数据科学感兴趣,你可能对这个工作流程很熟悉:用jupyter创建一个项目,然后开始编写python代码,运行复杂的分析,训练一个模型。当notebook文件随着函数、类、绘图和日志的增加而增大时,你会发现自己面前有一个庞大的代码块。如果幸运的话,项目有可能进展顺利,这再好不过了!然而,jupyter中隐藏了一些深坑,不小心掉进去,就如同进入地狱。下面先看看这些坑是什么样的,然后探讨如何避免。隐藏的问题下面这些情况,不知道你是否遇到过:在某个地方定义了一类,然后实例化。后来又想修改它了,于原创 2020-09-11 09:57:33 · 344 阅读 · 0 评论 -
【译】初学者指南:利用SVD创建推荐系统
作者:Mayukh Bhattacharyya翻译:老齐序言你是否有过这样的经历:前一天晚上登录Netflix,观看了《星际穿越》,他们会建议你看《地心引力》。或者你在亚马逊上购买了东西,看到了网站推荐给你可能感兴趣的产品。你是否想知道在线广告代理商是如何根据我们的浏览习惯向我们推送广告的?这一切都归结为一种被称为推荐系统的东西,它根据我们与产品互动的历史,预测我们可能对哪些产品感兴趣。本文中,我们将建立一个很酷的推荐系统。我们将使用SVD(Sigular Vector Decomposition翻译 2020-08-26 10:39:57 · 385 阅读 · 0 评论 -
【译】零基础学习梯度下降算法
作者:Philipp Muens翻译:老齐梯度下降法是机器学习中最基本的优化技术之一。那么,什么是梯度? 下降的是什么?我们要优化的是什么?这些可能是第一次接触梯度下降时想到的一些问题,本文就从零基础开始实现梯度下降,并在过程中回答这些问题。优化和损失函数许多机器学习问题需要某种形式的优化。通常,算法首先对正确答案进行初步猜测,然后慢慢地调整参数,使其在每次预测检验中的误差变小。这个学习过程反复进行,直到算法学会了“正确地”预测到结果为止。为了弄清楚算法在预测上的误差,我们需要定义一个损失函翻译 2020-08-20 15:35:32 · 247 阅读 · 0 评论 -
将Python中的字典数据转化为DataFrame的方法
编译:老齐与本文相关的图书推荐:《数据准备和特征工程》在数据科学项目中,通常用Pandas的read_csv或者read_excel从相应文件中读入数据,此外,对于数据量不大的时候,可能还有下面的情形出现:import pandas as pddata = {‘key1’: values, ‘key2’:values, ‘key3’:values, …, ‘keyN’:values}df = pd.DataFrame(data)这里是将一个Python中的字典data转化为了Pandas原创 2020-08-17 11:19:18 · 16988 阅读 · 0 评论 -
根据条件增加DataFrame的列
编译:老齐与本文有关的图书推荐:《跟老齐学Python:数据分析》当我们使用Python进行数据分析时,有时可能需要向DataFrame添加列,所添加的列要基于DataFrame的其他列的值。虽然这听起来很简单,但是,不少初学想到的是用if-else条件语句来实现,这就把问题搞复杂了。有一个简单又有效的方法,下面就来看看这种方法如何使用。加载一个数据集。import pandas as pdimport numpy as npdf = pd.read_csv('dataquest_twee原创 2020-08-14 17:07:28 · 7241 阅读 · 1 评论