- 博客(7)
- 收藏
- 关注
转载 爬虫-通用代码框架
1.百度搜索关键词提交百度的搜索路径格式是:http://www.baidu.com/s?wd=keywordimport requestskeyword = "Python"try: kv = {'wd': keyword} url = "http://www.baidu.com/s" r = requests.get(url, par...
2019-03-24 00:04:00
225
转载 爬虫-相关库知识整理(更新)
requests库主要方法import requestsrequests.request(method, url, **kwargs) """构造一个请求,支撑下面各种基础方法"""# **kwarg包括params, data, json, headers, cookies, auth, files, timeout, proxies(设代理服务器),# al...
2019-03-23 22:47:00
133
转载 机器学习-线性模型
一、基本形式 设定由n个属性描述的示例X = (x1; x2; x3; ...; xn),xi是X第i个属性的取值。线性模型尝试通过属性的线性组合来进行描述和预测f(X) = w1*x1 + w2*x2 + ...+wn*xn + b,其中w是各属性的组合系数。f(X)也可以用向量形式表达。学得w,b之后模型就得以确定 线性模型形式简单、易于建模,具有很好的解释性。同...
2019-03-17 17:48:00
207
转载 机器学习-性能度量
模型评估是对学习器泛化能力有效可行的实验估计方法。而性能度量是衡量模型泛化能力的评价标准。性能度量反应了任务需求,在对比不同模型能力时,使用不同的性能度量往往会导致不同的评估结果。模型的好坏不仅取决于算法和数据,还有任务需求。1.错误率与精度 最常用的两种性能度量,对于样例集D={(x1,y1), (x2,y2), ..., (xm,ym)}。分类错误率定义为 精度则...
2019-03-05 00:03:00
379
转载 机器学习-模型评估
一.经验误差和过拟合 错误率 E=a/m, a分类错误的样本数,m样本总数 精度 = 1 - E。 学习器在训练集上的误差:训练误差;在新样本上的误差:泛化误差。好的学习器应在新样本上表现优秀,因此学习器应尽可能掌握样本的潜在规律,提升泛化性能。 过拟合:学习能力过于强大,样本训练时将样本“自身特点”当做潜在样本的“一般规律”,导致泛化能力下降。 欠拟合:...
2019-03-04 12:35:00
226
转载 机器学习-术语笔记本
一、学习任务的分类1。监督学习(supervised learning):分类、回归等。监督指标签,监督学习通过已知训练样本得到最优训练模型,适用于新数据上。反复这样的过程,模型就有了预测能力。2.无监督学习(unsupervised learning):聚类等,不通过训练直接对数据进行建模分析,通过机器学习自行探索。预测离散值的学习任务:分类学习(classificat...
2019-03-03 13:20:00
163
转载 python多环境下虚拟环境的搭建和使用
由于开发环境要求,或者实际需要。经常会出现python2.7和python3.x共存下的开发环境问题。虚拟环境的搭建可以很好的隔离Projects的开发环境。1.首先解决python2.7和python3.x的pip问题 由于py2和py3版本都是使用的pip,然而我们在安装Python3(>=3.3)时,Python的安装包实际上在系统中安装了一个启动器py.ex...
2018-04-02 21:55:00
154
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人