
大数据
文章平均质量分 74
记录大数据学习过程中的经历
一纸春秋
张鼎元的博客。
展开
-
Alink提交任务到flink集群中运行(Java)
提交Alink任务到Flink集群中运行原创 2022-06-30 16:12:46 · 1057 阅读 · 2 评论 -
Alink连接Kafka等第三方数据源的方式(插件下载与导入)
Alink连接kafka,插件下载与导入方式原创 2022-06-01 17:50:03 · 1238 阅读 · 1 评论 -
MapReduce笔记 —— shuffle阶段的运行原理
这张图片是我从林子雨老师的ppt上面截下来的输入:框架使用InputFormat类的子类把输入文件(夹)划分为很多InputSplit,通常默认是每个HDFS的block对应一个InputSplit。通过RecordReader类,把每个InputSplit解析成一个个<k1,v1>。默认,框架对每个InputSplit中的每一行,解析成一个<k1,v1>注1:k1就是行偏移量,v1就是一行的内容。Map:这阶段是进行Map任务,也就是程序中的Mapper实现类。接收上原创 2021-11-20 20:46:31 · 1195 阅读 · 0 评论 -
SpringBoot笔记 —— 数据库连接池
首先写一个测试类,来看一下连接池的运行过程package com.demo.spring.test;import org.apache.commons.dbcp2.BasicDataSource;import java.sql.Connection;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;public class DBCPTest { public原创 2021-11-13 16:18:01 · 4578 阅读 · 1 评论 -
SpringBoot笔记 —— 使用MVC和三层架构模拟网站用户登录检查
通过Spring简单实现前端和后端的交互首先新建一个UserController类,里面放着会被前端访问的方法前端界面点击登录按钮后,实际上是通过springboot访问后端的对应方法。通过Spring实现前后端交互比如点击百度用户界面的登录按钮,按F12检查网页,到network下面,点击登录按钮会发现访问的是一个地址,类似于 http://master:3306/package/?login。点击前端的按钮会通过这个地址,将输入的username和password的值,传入后端对应的登录检查方原创 2021-11-12 22:55:30 · 3955 阅读 · 0 评论 -
JSON笔记 —— JSON与指定对象类型的相互转换
<dependencies> <!-- https://mvnrepository.com/artifact/com.google.code.gson/gson --> <dependency> <groupId>com.google.code.gson</groupId> <artifactId>gson</artifactId>原创 2021-11-09 23:00:04 · 2457 阅读 · 0 评论 -
MySQL笔记 —— 基础(概念,对于数据库、表、数据的各种操作语句)
数据库与普通文件系统的区别在于,数据库拥有数据结构。数据库与普通的txt文件都能存储数据内容,但是数据库拥有数据结构,能够快速查找而根据数据结构的不同,数据库又可以分为关系型数据库和非关系型数据库关系型数据库:是指采用了关系模型来组织数据的数据库关系模型有一对一,一对多,多对多等,关系模型指存储格式是以行列组成的二维表格,其以行和列的形式存储数据,一组行和列被称为一张表。一个关系型数据库就是由二维表及其之间的联系所组成的一个数据组织非关系型数据库的模型有:列模型:存储的数据是以列的形式存放的。比原创 2021-11-05 21:11:35 · 455 阅读 · 0 评论 -
Linux笔记 —— Shell(日期,重定向,定时器)
日期获取当前的日期时间格式化当前的日期时间date +"%Y-%m-%d %H:%M:%S"这里的%Y,%m,%d分别指代年,月,日。 %H,%M,%S分别指代时,分,秒%Y,%m,%d之间的符号可以修改,可以用 - ,也可以用~,汉字等作为分隔符date +"%Y年%m月%d日 %H:%M:%S"像这样用汉字作为分隔符号也是可以的对日期进行加减操作加一天 date +"%Y-%m-%d" --date="+1 day"里面的数字也可以修改,修改增加的天数,下面几项原创 2021-11-04 21:19:57 · 1662 阅读 · 0 评论 -
Linux笔记 —— shell
基本概念创建编写shell程序,首先需要创建一个shell文件,后缀名为“.sh"编写然后开始编写具体的语句首先是头部注释,头部注释为 #!/bin/sh或者#!/bin/bash这个注释可以写,也可以不屑,但是推荐写上去#!/bin/bash# echo就类似于java中的输出打印语句 printecho "helloworld"写完后保存退出运行通过sh命令执行例如:sh helloworld.sh (通常采用这种方式运行)通过bash命令执行例如::bash he原创 2021-11-03 11:48:52 · 219 阅读 · 0 评论 -
Linux笔记 —— 常用命令二(越权执行,查找,查看,管道,软件包管理,ssh免密与文件分发)
目录越权执行find 查找查看文件管道 |> 和 >>符号> 的含义是覆盖符号>>的含义是追加,把命令1的结果写入到命令2rpmtar文件分发越权执行sudo 越权执行格式: sudo 要执行的命令这里的sudo实际上是去借root用户的权限执行命令,前提是root用户给这个用户分配了权限root用户可以用visudo命令修改配置文件进行权限分配,具体的做法是打开一个文件,文件位置是/etc/sudoers普通用户可以借助 sudo -l 查看当前权限具体原创 2021-11-02 21:02:00 · 1162 阅读 · 1 评论 -
Linux笔记 —— 常用命令一(基础操作,用户和用户组,文件权限)
目录查看网络主机名防火墙man命令cdlsmkdir 创建目录rmdir 删除目录touch 创建空白文件rm 删除CP 复制mv 移动vim 文本编辑用户和用户组用户添加用户切换用户删除用户用户组创建用户组删除用户组管理组文件权限修改权限迭代修改修改用户组查看网络ifconfig 查看网络service network restart 重启网络主机名hostname 查看主机名hostnamectl set-hostname 主机名 永久修改主机名防火墙sy原创 2021-11-02 20:06:39 · 717 阅读 · 0 评论 -
mapreduce实例代码详解(一行一行的注释)
mapreduce的相关概念,以及运行原理网上都有很多,建议先大致掌握一下mapreduce的基础工作方式再来看代码。初开始学mapreduce看那一堆代码的时候很是郁闷,现在把我对每一行代码的理解写下来,希望对你们有一点帮助。那么第一个实例,就按惯例来写词汇统计好了。import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.原创 2020-12-26 17:59:17 · 8433 阅读 · 7 评论 -
flume基本概念与操作实例(常用source)
Flume是分布式、可信赖的、可获取的服务基于高效收集,集合和移动或者传输大量的日志收集Flume系统中核心的角色是agent,agent本身是一个Java进程,一般运行在日志收集节点。每一个agent相当于一个数据传递员,内部有三个组件:Source:采集源,用于跟数据源对接,以获取数据;Sink:下沉地,采集数据的传送目的,用于往下一级agent传递数据或者往最终存储系统传递数据;Channel:agent内部的数据传输通道,用于从source将数据传递到sink;在整个数据的传输的过程中原创 2021-08-04 16:46:59 · 629 阅读 · 0 评论 -
MapReduce实战项目——芝加哥的犯罪数据分析
数据来源是https://www.kaggle.com/currie32/crimes-in-chicago以下是数据集的预览数据各个标签的含义如下//ID --> 身份证IDCase Number --> 案件编号Date --> 事件发生的日期Block --> 事件发生地的部分编辑地址,将其放置在与实际地址相同的块上。IUCR --> 犯罪报告代码//Primary Type --> 主要类型(主要描述的IUCR代码)//Description原创 2021-07-24 15:22:03 · 3587 阅读 · 1 评论 -
virtualbox导入虚拟机(ubuntu)
不得不说,安装ubuntu然后再安装各种软件,即使有全套教程的指导,中间还是容易出各种错,所以直接导入一个已经配置好的ubuntu虚拟机也是一条可以考虑的退路。点击管理,然后选择“导入虚拟电脑”具体的虚拟机文件需要自己去下载,我用的是林子雨老师在《大数据基础编程、实验和案例教程》中提供的虚拟机https://dblab.xmu.edu.cn/post/bigdatapractice/这是书上给出的资源官网,我这里只是用来举一下例子,建议购买这本书然后自行下载点击最右侧的文件图标,然后找到原创 2020-09-22 18:44:38 · 4361 阅读 · 1 评论 -
MapReduce入门经典案例(Windows环境下)
之前一直都是在linux系统中编写MapReduce程序,最近尝试了在Windows环境下链接本地虚拟机,进行MapReduce的编译运行关于jar包的导入问题可以看我之前的博客https://blog.youkuaiyun.com/qq_44823756/article/details/119059561?spm=1001.2014.3001.5501.下面是四个经典案例,分别是一、词频统计二、最大值三、去重四、总和计算下面是四个经典案例,分别是一、词频统计二、最大值三、去重四、总和计算一、词频统计原创 2021-07-24 17:20:40 · 1375 阅读 · 1 评论 -
Windows环境下编写MapReduce程序获取所需要的jar包(本地导入和maven)
方法一,手动导入在本地Windows环境下,下载解压hadoop-2.7.6进入idea创建好的项目文件夹下面新创建的Directory命名为lib来到hadoop-2.7.6\share\hadoop\common文件目录下面将黄色荧光笔标记的三个jar包拖入项目文件夹的lib目录下还有\hadoop-2.7.6\share\hadoop\common\lib文件目录下的全部jar包也拖入lib中来到hadoop-2.7.6\share\hadoop\hdfs目录下这三个jar原创 2021-07-24 16:49:23 · 2019 阅读 · 0 评论 -
解决Virtualbox中的虚拟机联网问题
我很久之前试了很多办法,包括改防火墙权限,改网关和dns,为了能让虚拟机连上网最近新导入了一个虚拟机用来做数据挖掘实训的时候发现,新导入的虚拟机连不上网解决办法如下进去之后就可以发现能够正常联网了,但是无法使用FileZilla这时候再改成进去打开命令行,输入ifconfig就可以查看ip地址了...原创 2021-06-15 17:29:37 · 8189 阅读 · 0 评论 -
VirtualBox虚拟机 Ubuntu的分辨率问题解决方案
发现了一个很取巧的方法来让你的虚拟机屏幕铺满电脑屏幕,这个方法我在自己电脑上用的都成功了,不知道在别人电脑上能不能行,如果能行那确实方便太多了首先打开一个虚拟机点击全屏模式进入全屏模式后,按右边的ctrl+F回到普通模式这时候我的虚拟机就会自动铺满屏幕之前去设置里面调整分辨率或者直接改文件里的数值都不行,进入全屏后再退出来就可以了,原理不明……=_=...原创 2021-04-24 00:04:39 · 929 阅读 · 0 评论 -
virtualbox打开win10与虚拟机之间的复制粘贴功能
打开虚拟机,找到最上面的virtualbox控制栏打开共享粘贴板,选择“双向”然后还是设备这一列,找到最下面的安装增强功能双击安装会弹出输入密码的提示窗口,密码就是当前账号的登录密码。然后系统会自动安装。安装完成后按照提示输入Return返回后,重新启动虚拟机,即可将win10中的内容复制粘贴到虚拟机中。快捷键是ctrl+c和ctrl+v...原创 2020-09-22 18:05:18 · 19062 阅读 · 2 评论