自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(69)
  • 收藏
  • 关注

原创 在国内如何学习黑客技术?

一个练习渗透测试的平台,有很多machine,难度分为:简单,中等,难。,安全领域综合性门户,有新闻,也有技术经验分享,也有技术剖析,内容相对杂一些,适合初中阶选手。是一个不错的平台,虽然是一个类似简书的写作平台,但干货还是挺多的,需要自己通过关键字去找文章。,有内部的论坛,不过我很久没登论坛了,账号密码早忘记了,在我印象中,,能自己写工具的不多,但干货还是有的,适合有一定基础的中阶选手。,安全行业,国内数一数二的在线教育平台,打基础的地方,有很多。练习题,很多视频教程,适合初中阶选手。

2024-08-15 14:22:30 257

原创 Django框架迁移后创建表manage.py makemigrations 和 manage.py migrate不起作用的问题

Django框架迁移后创建表manage.py makemigrations 和 manage.py migrate不起作用的问题

2024-05-10 10:03:19 391

原创 python生成随机验证码图片+噪声

【代码】python生成随机验证码图片。

2024-04-29 15:14:05 339

原创 二刷大数据(三)- Flink1.17

通过算子链,多个算子的子任务(Subtask)可以共享同一个 Task Slot,避免了跨进程或跨网络的数据交换,减少了线程上下文切换、数据序列化/反序列化的开销,同时也降低了对系统资源的需求。如果作业的并行度大于可用的任务槽数量,部分子任务将在其他 TaskManager 的任务槽中执行,或者等待空闲的任务槽。综上所述,Flink 中的水位线是事件时间处理框架中不可或缺的一部分,它通过动态跟踪和传播事件时间的进展,解决了实时数据流中的乱序问题,确保了基于事件时间的窗口计算能够在合理的时间内准确完成。

2024-04-18 15:31:09 1556 1

原创 二刷大数据(二)- Spark

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎Spark和Hadoop是两种广泛应用于大数据处理领域的框架,它们各有特点和适用场景,主要区别可以从以下几个方面进行概述:数据处理模型:Hadoop:采用批处理模型,通过其核心组件MapReduce实现数据处理。MapReduce将数据分解成多个数据块,分别在集群节点上进行并行处理,然后将结果合并。这一过程涉及磁盘I/O,包括读取输入数据、中间结果写入磁盘、最终结果写回磁盘,因此对于需要大量磁盘读写交互的复杂迭代任务,效率相对较低。Spark:

2024-04-17 10:05:32 1114 1

原创 二刷大数据(一)- Hadoop

大数据的4V特征是描述大数据特性的四个关键维度,这四个特征分别为:Volume(大量性):Velocity(高速性):Variety(多样性):Value(价值性):优势:Hadoop分布式文件系统(HDFS)是一种专为大型分布式计算和海量数据存储而设计的文件系统,它采用主/从(Master/Slave)架构来管理和存储数据。下面是HDFS工作原理的简单描述:NameNode(主节点):DataNode(从节点):数据存储与冗余:数据读取:心跳检测与块报告:故障检测与恢复:综上所述,HDFS通过集中式的元数

2024-04-12 16:32:03 1092

原创 Python高级

在Python中,子类定义函数(实际上是方法,即绑定到类实例的方法)时,需要传入self标识实例方法self参数标志着这是一个类的方法,而不是一个独立的函数。在面向对象编程(OOP)中,类的方法通常需要操作或访问类实例的状态(即实例变量)。self代表调用该方法的类实例本身,它让方法有了上下文,能够在方法内部访问和修改实例的属性。隐式传递实例:当你通过类的实例调用一个方法时,Python会自动将实例作为第一个参数传给方法,这个参数在方法内部被称作self。例如,当你创建一个类Person并调用其。

2024-04-08 16:13:11 978

原创 华为openEuler-22.03-LTS-SP3配置yum源

华为开源国产自研高精尖不是CentOS的操作系统openEuler-22.03-LTS-SP3配置yum源

2024-04-03 10:43:15 6735

原创 数仓项目6.0(一)

数据同步工具种类繁多,大致可分为两类,一类是以DataX、Sqoop为代表的基于Select查询的离线、批量同步工具,另一类是以Maxwell、Canal为代表的基于数据库数据变更日志(例如MySQL的binlog,其会实时记录所有的insert、update以及delete操作)的实时流式同步工具。DataX的使用,用户只需根据数据的数据源和目的地选择相应的Reader和Writer,并将Reader和Writer的信息配置在一个json文件中,然后执行如下命令提交数据同步任务即可。

2024-02-27 16:29:49 2067 2

原创 数仓项目6.0(二)数仓

中间的几步意义就在于,缓存中间处理数据样式,避免重复计算浪费算力。

2024-02-27 16:29:29 1267

原创 数仓项目6.0配置大全(hadoop/Flume/zk/kafka/mysql/hive配置)

(1)将apache-flume-1.10.1-bin.tar.gz上传到linux的/opt/software目录下。重命名/opt/module/zookeeper/conf目录下的zoo_sample.cfg为zoo.cfg。(2)解压apache-flume-1.10.1-bin.tar.gz到/opt/module/目录下。在/opt/module/zookeeper/zkData目录下创建一个myid的文件。在/opt/module/zookeeper/目录下创建zkData。

2024-01-17 11:47:32 1874 1

原创 都研二了还不知道什么是Redis

随着数据量增大,MySQL存在磁盘IO瓶颈,与MySQL数据库不同的是,Redis的数据是存在内存中的。除此之外,Redis支持事务、持久化、LUA 脚本、LRU 驱动事件、多种集群方案。Redis,英文全称是Remote Dictionary Server(远程字典服务),是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。redis是一个开源的、使用C语言编写的、支持网络交互的、可基于内存也可持久化的Key-Value数据库。

2024-01-05 15:44:30 845

原创 微信小程序开发学习(上强度):从0开始写项目

从0开始写微信小程序项目:卖茶妹

2023-12-22 17:15:26 1061

原创 微信小程序开发学习(基础)

可以复用的一块东西。

2023-12-18 16:57:47 998

原创 WX小程序案例(二):毒鸡汤列表-request-下拉

【代码】WX小程序案例(二):毒鸡汤列表-request-下拉。

2023-12-18 15:23:46 649

原创 WX小程序案例(一):弹幕列表

WX小程序案例(一):弹幕列表。

2023-12-15 10:14:36 619

原创 前端(一):HTML+CSS

选择所有作为E元素的。

2023-12-11 16:46:43 1042

原创 leetcode刷题 - SQL - 中等、困难

如果不能平均分配,则较小桶号的桶分配额外的行,并且各个桶中能放的数据条数最多相差1。聚合函数对一组值执行计算并返回单一的值,如sum(),count(),max(),min(), avg()等。到指定的数量n的桶中,将桶号分配给每一行,排序对应的数字为桶号,序号从1到n。,表示跳过开头的n行,返回接下来的m条数据。想知道各个地区的前几名、各个班的前几名。表中第二高的薪水。如果不存在第二高的薪水,查询应该返回。第三题提供的思路,但是无法实现重复的最大值。如果有两个人都排在第3名,则没有第4名。

2023-11-10 17:33:48 690

原创 git使用

全局配置文件存储在用户主目录下的.gitconfig文件中,它是全局生效的。在Windows系统中,一般位于“C:\Users\用户名”目录下;在Linux和Mac OS X系统中,一般位于“~”目录下。 Git记录每一次提交的作者信息,因此我们需要设置用户名和邮箱。在Git中,我们可以使用以下命令来设置:2 创建仓库2.1 本地新建一个文件夹,然后在这个文件夹里面使用

2023-11-03 09:53:45 414

原创 leetcode刷题 - SQL - 简单

leetcode数据库刷题记录

2023-11-01 15:18:24 827

原创 Hbase

Apache HBase™ 是以 hdfs 为数据存储的,一种分布式、可扩展的 NoSQL 数据库。

2023-10-31 11:46:03 1041

原创 尚硅谷Flume(仅有基础)

Flume 是Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。

2023-10-25 16:35:35 867

原创 Zookeeper

Zookeeper 是一个开源的分布式的,为分布式框架提供协调服务的 Apache 项目Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应。

2023-10-24 11:14:01 403

原创 尚硅谷kafka3.0.0

Kafka传统定义:Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。(发布/订阅:消息的发布者不会将消息直接发送给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只接收感兴趣的消息。Kafka 最新定义:Kafka 是一个开源的分布式事件流平台(Event Streaming Platform),被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用。

2023-10-23 13:29:22 979

原创 zookeeper安装-linux

在设置的dataDir目录下创建一个名字叫myid的文件(必须叫myid!一看状态居然失败了?因为另外两个没启动,不过半没法选出来leader。写入一个数(几都行,只要三个集群别一样)(hadoop2成leader了)hadoop2/3也启动。学kafka的时候安装。现在hadoop1状态。

2023-10-19 14:10:05 1248

原创 Maven

jar ---------> 普通项目打jar包,一般普通项目设置jar。(5)如果希望修改版本,只需要修改父工程中的依赖jar包版本就可以了,那么,各个子工程中的jar包版本就都变了。pom

2023-10-17 14:06:41 315

原创 尚硅谷Flink(完)FlinkSQL

⚫ 标量函数(Scalar Functions):将输入的标量值转换成一个新的标量值;⚫ 表函数(Table Functions):将标量值转换成一个或多个新的行数据,也就是扩展成一个表;⚫ 聚合函数(Aggregate Functions):将多行数据里的标量值转换成一个新的标量值;⚫ 表聚合函数(Table Aggregate Functions):将多行数据里的标量值转换成一个或多个新的行数据。要想在代码中使用自定义的函数,我们需要首先自定义对应 UDF 抽象类的实现,并在表环境中注册。

2023-10-17 13:57:16 2338

原创 尚硅谷Flink(四)处理函数

在Flink中,算子任务可以分为无状态和有状态两种情况。无状态的算子任务只需要观察每个独立事件,根据当前输入的数据直接转换输出结果。我们之前讲到的基本转换算子,如map、filter、flatMap,计算时不依赖其他数据,就都属于无状态的算子。而有状态的算子任务,则除当前数据之外,还需要一些其他数据来得到计算结果。这里的“其他数据”,就是所谓的状态(state)。我们之前讲到的算子中,聚合算子、窗口算子都属于有状态的算子。

2023-10-17 09:56:31 474

原创 尚硅谷Flink(三)时间、窗口

时间、窗口、水位线、join合流

2023-10-16 14:52:36 557

原创 尚硅谷Flink(二)DStream API

当 Flink 提供的所有分区策略都不能满足用户的需求时,我们可以通过使用partitionCustom()方法来自定义分区策略。// 这里如果分三个区就报错了,可能因为并行度?

2023-10-13 15:17:15 788

原创 尚硅谷Flink(一)

Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行状态计算。Flink 被设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。把流处理需要的额外数据保存成一个“状态”,然后针对这条数据进行处理,并且更新状态。这就是所谓的“有状态的流处理”。无界数据流:有定义流的开始,但没有定义流的结束会无休止的产生数据无界流的数据必须持续处理,即数据被摄取后需要立刻处理。

2023-10-11 16:37:25 1853

原创 PySpark

Spark 最早源于一篇论文, 该论文是由加州大学柏克莱分校的 Matei Zaharia 等人发表的。论文中提出了一种弹性分布式数据集(即 RDD)的概念。RDD 是一种分布式内存抽象,其使得程序员能够在大规模集群中做内存运算,并且有一定的容错方式。而这也 是整个 Spark 的核心数据结构,Spark 整个平台都围绕着RDD进行。对于数据源而言,Spark 支持从HDFS、HBase、Cassandra 及 Kafka 等多种途径获取数据。

2023-10-08 13:52:54 1107

原创 Spark学习笔记—Spark Streaming

Spark Streaming 用于流式数据的处理。Spark Streaming 支持的数据输入源很多,例如:Kafka、 Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象原语 如:map、reduce、join、window 等进行运算。而结果也能保存在很多地方,如 HDFS,数据库等。

2023-09-20 11:42:53 404

原创 Docker安装与使用(Linux)

1.从仓库搜索、拉取镜像2.启动docker ps端口指向3.本机自测orcurl 主机名:36904.进入容器1.查看本机docker0网络2.查看容器网络随便启动两个容器,看看ip先进入容器装工具,apt update && apt install -y iproute2docker网络要解决的问题:3.发现每启动一个容器,就多了一对网卡使用环境:新建一个自定义网络mynet,网段是192.168.0.1,设备有tom01和tom02,;

2023-09-18 16:56:30 1131

原创 Linux(下)

定义变量:变量名=值销毁变量:unset 变量声明静态变量:readonly 变量,注意:不能 unset/bin/bash#案例 1:定义变量 AA=100#输出变量需要加上$echo A=$A#案例 2:撤销变量 Aunset Aecho "A=$A" 只输出A=#案例 3:声明静态的变量 B=2,不能 unset#unset B 没用定义变量的规则1) 变量名称可以由字母、数字和下划线组成,但是不能以数字开头。5A=200(×)2) 等号两侧不能有空格。

2023-09-08 11:06:18 139

原创 Linux(上)

Linux入门到入土

2023-09-06 09:29:34 1534

原创 MySQL(下)

系统变量 是MySQL服务器提供,不是用户定义的,属于服务器层面。分为全局变量(GLOBAL)、会话变量(SESSION)。用户定义变量 是用户根据需要自己定义的变量,用户变量不用提前声明,在用的时候直接用 "@变量 名" 使用就可以。其作用域为当前连接。SELECT 字段名 INTO @var_name FROM 表名;用户定义的变量无需对其进行声明或初始化,只不过获取到的值为NULL。-- 赋值set @mygender := '男',@myhobby := 'java';

2023-08-29 23:30:24 153

原创 MySQL(上)

查询所有数据库查询当前数据库创建数据库create database [ if not exists ] 数据库名 [ default charset 字符集 ] [ collate 排序规则 ];在同一个数据库服务器中,不能创建两个名称相同的数据库,否则将会报错。可以通过if not exists 参数来解决这个问题,数据库不存在, 则创建该数据库,如果存在,则不 创建。删除数据库drop database [ if exists ] 数据库名;切换数据use 数据库名;

2023-08-26 00:14:05 183

原创 ProxyError: Conda cannot proceed due to an error in your proxy configuration.

使用conda时,一使用魔法能出去了,可又会导致各种清华源都下载不了的错误,解决办法如下。在用户目录文件夹下找到.condarc文件,编辑。具体的端口看你自己的魔法上面是多少。

2023-07-26 14:53:48 233

原创 爬虫.....

当采用 POST 方式向指定位置提交数据时,数据被包含在请求体中,服务器接收到这些数据后可能会建立新的资源、也可能会更新已有的资源。思路:只要中文片名,需要找到每个div class="hd"下的第一个告诉其他信息,一般在POST里面,GET里一般是空的。User-Agent用来告知服务器,客户端的信息。由代码发出的请求的 User-Agent被标注为。BeautifulSoup将网页转化成树状结构。版本 状态码 状态消息。其实加个for循环就行了。

2023-06-20 00:54:36 617

爬取壁纸网站爬虫python源码+可直接执行的exe

爬取https://wallhaven.cc/toplist的高质量壁纸源图片,基于xpath解析进行爬取,并对逻辑结构进行了优化,爬取速度快,并自动保存到桌面文件夹中。资源内的exe文件已做兼容性处理,使用cmd窗口,可以直接执行,资源内附py源码,可以根据需求进行修改,以适应个人需求。

2023-07-01

spark分布式计算模拟代码

由1个Driver,2个Executor,采取Driver作为Clint,Executor作为Server,进行模拟分布式的任务传递和计算代码,1个任务类Task,1个分布式任务类SubTask。 两个Executor启动,等待Driver启动后连接并分配任务资源,使Executor进行计算

2023-01-07

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除