
大数据处理与分析
进行网络数据挖掘、清洗处理、分析,最后实现优美可视化
牛板筋不筋
温故而知新
展开
-
6 Arcgis
ArcGIS 是一个全面的系统,用户可用其来收集、组织、管理、分析、交流和发布地理信息。作为世界领先的地理信息系统 (GIS) 构建和应用平台,ArcGIS 可供全世界的人们将地理知识应用到政府、企业、科技、教育和媒体领域。ArcGIS 可以发布地理信息,以便所有人都可以访问和使用。本系统可以在任何地点通过 web 浏览器、移动设备(例如智能手机和台式计算机)来使用。 可视化微博签到数据: 1打开矢量文件,去掉黑边 (1) 绘制矢量范围 (2) 裁剪出影像范围 2...原创 2020-09-04 09:49:33 · 475 阅读 · 0 评论 -
5 Spark GraphX
1.1 GraphX应用背景 参考链接1:https://www.cnblogs.com/shishanyuan/p/4747793.html 参考链接2:https://blog.youkuaiyun.com/qq_37142346/article/details/82016770 Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。 众所周知社交网络中人与人之间有很多关系链,例如Twitter、Facebo.原创 2020-09-04 09:46:33 · 289 阅读 · 0 评论 -
4 Gephi
红楼数据分析结果: 在基于力导向 (Force-directed) 的算法布局后,进行统计分析: 1由于我们节点本身大小与节点标签尺寸都是选择Rank中的度,所以由图可以明显看出谁的度越大,说明在个图中与其他点联系越大,作用越大(通过颜色可以有更好地体现) 2由于我们节点本身颜色和标签颜色的渲染方式都选的模块化,所以整个图以度大的节点最终呈现出社区稳定 Force Atlas: 基于力导向 (Force-directed) 的算法作为弹簧理论算法的一类典型,被广泛应用于...原创 2020-09-01 08:52:49 · 417 阅读 · 0 评论 -
3 MapReduce简单原理
Map 任务(分割及映射) Reduce 任务(重排,还原) 1 作业被分成多个任务,然后运行到集群中的多个数据节点。 2 JobTracker的责任是协调活动调度任务来在不同的数据节点上运行。 3 单个任务的执行,然后由 TaskTracker 处理,它位于执行工作的一部分,在每个数据节点上。 4 TaskTracker 的责任是发送进度报告到JobTracker。 5 此外,TaskTracker 周期性地发送“心跳”信号信息给 JobTracker 以便通知系统它的...原创 2020-09-01 08:42:14 · 167 阅读 · 0 评论 -
2 Scrapy
Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 Scrapy使用了Twisted异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活地完成各种需求。 Scrapy Spider会确定处理哪个网站,然后传送URL给引擎; 引擎将request请求发送给调度器; 调度器处理好request请求后,然后发给引擎; 引擎再将这个request请求发给下载器; spider下载后,再原创 2020-08-31 23:07:46 · 160 阅读 · 0 评论 -
1 HDFS配置
HDFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统。 HDFS基本架构图 写文件 读文件 参考链接:https://my.oschina.net/shiw019/blog/92771 HDFS分布式集群如何搭建? 1:新建虚拟机 2:挂载镜像 一:网络配置: 1网卡配置 只需要对被克隆对象 2ip配置——如下命令 3主机名设置 4重启使得配置生效 Service network res...原创 2020-08-31 22:59:25 · 205 阅读 · 0 评论