
大数据
文章平均质量分 66
uniquewdl
易是平凡,难亦平凡
展开
-
记一次sparkStreaming无法推送(接收)kafka推送数据问题
spark整合kafka无法推送信息的解决方案。主要原因:环境版本问题原创 2022-05-14 10:47:59 · 726 阅读 · 0 评论 -
Cannot retrieve repository metadata (repomd.xml) for repository: base
产生背景及错误信息环境centos 6.5操作:yum install ruby]错误信息:Loaded plugins: refresh-packagekit, securityhttp://mirrors.aliyun.com/centos/6/os/x86_64/repodata/repomd.xml: [Errno 14] PYCURL ERROR 22 - "The requested URL returned error: 404 Not Found"Trying other mir原创 2021-11-20 14:56:46 · 1440 阅读 · 1 评论 -
安装elasticsearch集群
认识elasticsearch最近在做一个关于spark整合Elasticsearch的项目,闲下在自己机器上安装了一下elasticsearch集群。关于elasticserarch,这里简单做一下介绍:它 是一个实时分布式搜索和分析引擎。它让你以前所未有的速度处理大数据成为可能。它的底层是基于Lucene实现的一个搜索引擎。关于Lucene我在四年前写过几篇文章,大家可以看一下。Luncen介绍Luncen分词器的使用安装环境: JDK1.7.55+elasticsearch-2.3.1.t原创 2021-11-13 22:48:35 · 2166 阅读 · 0 评论 -
关于Spark error: value write is not a member of org.apache.spark.sql.DataFrame的分析与总结
最近自己在spark集群云顶DataFrames向HDFS集群写入文件时候的遇到了下边错误信息的问题error: value write is not a member of org.apache.spark.sql.DataFrame其实通过上述错误信息描述并不能第一时间来进行确定问题所在之处,通过仔细检查代码,发现并无不妥之处,参考网上了说的一些说的主要几个场景,包括隐式转换位置错误,case class定义位置错误等等,关于说引入隐式转换的位置顺序出问题这个思路时,当时也有一点点怀疑,因..原创 2021-10-23 23:11:50 · 3927 阅读 · 0 评论 -
解决scala项目打包时出现Error: bad option -make:transitive的问题
错误信息Error: bad option -make:transitive最近scala项目编译打包时候总是出现上述问题,目前最快捷的解决方案就是删除.idea目录下的scala_compiler.xml文件中的 但是这种方案治标不治本,每次加载后后仍会重新出现该问题,这里我们可以检查,在pom文件中是否存在下边的配置内容: <configuration> <args>原创 2021-08-14 22:56:23 · 549 阅读 · 0 评论 -
基于mahout推荐算法的推荐系统简单流程分析
前言最近太忙了,很久没有更新文章了。最近一段时间也在看一些书,关于大数据的推荐系统领域,根据自己的所见所想对整个推荐系统做了一个简单的流程图并进行了简单的分析,并对所用到的算法进行了一个简单的调用说明。(其中太多的细节没有说明,只介绍了整体流程)数据流程 如果关于大数据相关知识相对比较薄弱的同学,我们可以简单假设一个场景,就是上述流程图就是关于一个在线服装店,其中收集数据就包括了用户的点评,分享,打分等信息。其中准备数原创 2021-07-03 19:09:19 · 1745 阅读 · 6 评论 -
Hbase ERROR: Can‘t get master address from ZooKeeper; znode data == null 解决方案
最近在给新机器配置hbase集群时候出现个问题。错误信息为:ERROR: Can’t get master address from ZooKeeper; znode data == null前期探索判断zookeeper问题根据错误信息描述,潜意识认为是zookeeper集群没有起来,就跑到集群中看错误信息,发现一个leader两个follwer正常运行。初步排除集群问题,然后根据网上的一些错误描述说是节点数据问题,需要删除data目录下的内容(除myid文件)然后重启,试之~ 无果。hb.原创 2021-04-16 22:45:55 · 4853 阅读 · 1 评论 -
centos yum失败 Loaded plugins: fastestmirror, refresh-packagekit, security Determining fastest mirror
背景&问题最近需要在虚拟机上安装mysql,为了方便采取的是yum install mysql-server方式,但是刚开始源于到了问题removing mirrorlist with no valid mirrors: /var/cache/yum/x86_64/6/base/mirrorlist.txtError: Cannot find a valid baseurl for repo: base由于本人是研发非专业运维人员,所以主要考在线寻找问题,经过国内的度娘发现大部分帖子上原创 2021-03-02 22:58:53 · 1731 阅读 · 0 评论 -
实时计算入门篇-了解storm
离线计算最近在了解离线系统,根据自己的了解,以及参考网上的相关资料,总结了相关知识,供刚入门的同学们了解。离线计算,就是批量获取数据、批量传输数据、周期性批量计算数据、数据展示,相信大家在了解实时计算的时候肯定对离线计算有一定的了解了,比如Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、任务调度等技术(zakaban),这些都是离线计算流式计算流式计算,数据实时产生、数据实时传输、数据实时计算、实时展示。Flume实时获取数据、Kafka/m原创 2020-07-24 08:41:47 · 322 阅读 · 0 评论 -
Mac宿主主机无法ping通docker容器ip
起源在安装azkaban时候发现无法在宿主主机上调用https://ip:8443这个uri,确认docker中的服务启动,继续尝试ping容器发现无法ping通。慢慢就发现了新大陆。下边就开启追溯原因和探索解决方案:mac下的宿主无法ping通docker容器原因在于docker在OSX的实现方式,是首先创建一个linux的虚拟机,在将docker放入到虚拟机中实现,而对于linux虚拟机...原创 2020-04-09 21:42:52 · 5087 阅读 · 8 评论 -
利用docker搭建haood集群,以及常见问题的总结与分析
前言相信很多码友们也从事大数据行业,我接触大数据也有一段时间了,之前是在本机上利用Vmware搭建hadoop集群,随着时间的推移,发现电脑和人一样,到了年龄,身体一天不如一天。所以决定今天决定利用docker容器进行搭建一套伪分布式系统。如果没有了解过docker,下章我将会对docker的入门进行做一些说明,这里先普及一下什么是docker.Docker 是一个开源的应用容器引擎,让开发...原创 2019-12-22 22:09:52 · 490 阅读 · 0 评论