
大数据
努力的气球
这个作者很懒,什么都没留下…
展开
-
《大数据算法学习》(三)MNIST手写数字识别
一、使用MNIST数据集 本次学习使用神经网络识别手写数字,我们使用的数据集是MNIST数据集,MNIST数据集的长相如下图所示。 MNIST数据集是由0 到9 的数字图像构成。训练图像有6 万张,测试图像有1 万张,这些图像可以用于学习和推理。MNIST数据集的一般使用方法是,先用训练图像进行学习,再用学习到的模型度量能在多大程度上对测试图像进行正确的分类。 MNIST的...原创 2020-03-28 16:41:47 · 5046 阅读 · 0 评论 -
《大数据算法学习》(二)神经网络
一、神经网络的介绍1.1 概念 神经网络的出现就是为了解决设定权重的工作(即确定合适的、能符合预期的输入与输出的权重,现在还是由人工进行的),具体地讲,神经网络的一个重要性质是它可以自动地从数据中学习到合适的权重参数。 用图来表示神经网络,把最左边的一列称为输入层,最右边的一列称为输出层,中间的一列称为中间层。中间层有时也称为隐藏层。“隐藏”一词的意思是,隐藏层的神经元(和...原创 2020-03-21 19:27:55 · 5042 阅读 · 0 评论 -
Spark流计算期末复习资料----助力高绩点
Spark集群搭建Spark基于standalone集群搭建,standalone是主从结构,分master,worker;app作业Application:带有自己需要的mem和cpu资源量,会在master里排队,最后被分发到worker上执行。app的启动是去各个worker遍历,获取可用的cpu,然后去各个worker launch executor。 Worker...原创 2020-03-16 12:24:49 · 4155 阅读 · 0 评论 -
Spark流计算课程设计----帮助新手入门实践
一、概述1.1 问题背景某网站系统实时产生日志信息,记录用户对系统的访问信息,例如:IP地址,用户名称,访问时间,请求和响应信息,其中IP地址信息是表示全国各地用户的访问情况,对IP地址的详细分析,可以了解各个地区对该网站系统访问的活跃度,用以判断该网站公司对区域活动的推广情况和投入成本。本项目为网站运营方向常用技术案例。1.2 本组完成的任务对日志进行清洗。 统计24小时内的访...原创 2020-03-16 12:22:53 · 5134 阅读 · 1 评论 -
《大数据算法学习》(一)感知机
1.感知机的起源感知机是由美国学者FrankRosenblatt在1957年提出来的。是作为神经网络(深度学习)的起源 的算法。学习感知机的构造也就是学习通向神经网络和深度学习的一种重要思想。2.感知机的概念感知机接收多个输入信号,输出一个信号。 这里所说的“信号”可以想象成电流或河流那 样具备“流动性”的东西。像电流流过导线, 向前方输送电子一样,感知机的信号也会形成 流,向前方输送...原创 2020-03-12 20:28:12 · 3563 阅读 · 0 评论 -
centos7搭建hadoop集群和配置eclipse
一.目的:1.搭建hadoop集群,集群中有3台机器,让它们在一个环回网络中,分别是:192.168.1.2 master192.168.1.3 slave1192.168.1.4 slave22.其中master是主机,slave1和slave2是活动节点,实现免密码互通。3.在master中安装eclipse,在eclips中配置hadoop。二.搭建步骤:1....原创 2019-05-04 16:00:46 · 7686 阅读 · 0 评论 -
Eclipse搭建Hadoop3.0.0开发环境
在配置之前可以参考https://blog.youkuaiyun.com/zhiyeegao/article/details/88087232在Eclipse上安装Hadoop插件1.下载hadoop-eclipse-plugin-2.7.3.jar,放到Eclipse的plugins目录下,重启Eclipse。链接:https://pan.baidu.com/s/1ZHCoeaISnQkMlI3...原创 2019-03-03 18:03:18 · 14150 阅读 · 1 评论 -
Windows10安装Hadoop3.0.0(补充了一些内容,提供了安装包)
参考 https://blog.youkuaiyun.com/songhaifengshuaige/article/details/79575308准备工作1.下载hadoop3.0.0的压缩包,我有压缩包就放在我的csdn上了,bin也是更新过的,不用再更新了。链接:https://pan.baidu.com/s/14HjD8qLyyfcscxTlsCIy3w提取码:e432(这个是我自己加...原创 2019-03-03 14:08:16 · 15485 阅读 · 0 评论 -
谷歌首席决策科学家:30篇文章通关数据科学与人工智能(转自TinyMind社区)
大数据文摘出品编译:ZoeY、睡不着的iris、杨威、蒋宝尚 谷歌首席决策科学家(Chief Decision Scientis)凯西柯兹科夫(Cassie Kozyrkov)在2018年非常高产,为大家写了非常多关于人工智能、大数据的文章。以下是他感觉她写过最优秀30篇文章,这些文章主要关注:数据科学和分析、人工智能、机器学习.... ... 当然,除了给出文章链接之外,她还...转载 2019-01-22 21:41:31 · 6398 阅读 · 0 评论 -
python爬虫系列版
Python爬虫(1):基本原理 Python爬虫(2):Requests的基本用法 Python爬虫(3):Requests的高级用法 Python爬虫(4):Beautiful Soup的常用方法 Python爬虫(5):豆瓣读书练手爬虫 Python爬虫(6):煎蛋网全站妹子图爬虫 Python爬虫(7):多进程抓取拉钩网十万数据 Python爬虫(8):分析Ajax请求爬取果...转载 2018-09-03 21:28:22 · 7650 阅读 · 0 评论 -
当今世界最NB的25位大数据科学家
当今世界最NB的25位大数据科学家引言 在大数据技术飞速发展的今天,谁才是我们大数据科研与工业界中最有威望的科学家呢?下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产生巨大影响的数据科学家(Data Scientists)。他(她)们推动了整个领域的发展,毫无疑问,无论是在学术界还是还工业界,他(她)们都是一座座山头式的人物。他(她)们是我们这些从事大数据产业发展的榜...翻译 2018-09-01 10:15:04 · 10441 阅读 · 1 评论