- 博客(195)
- 收藏
- 关注
原创 最全自动邮件天气提醒(30分钟Python入门))_自动天气邮件(1),腾讯大数据开发开发面试凉凉
跟我练:在命令行中输出如图所示的北京市天气信息,完成后点击【检测任务】按钮,解锁下一任务。今日北京天气晴。
2024-05-16 05:20:15
521
原创 最全腾讯T4专家精心整理:大数据+机器学习+数据挖掘+算法大集结(3),你想学的都在这里
本文共分为10章,第1章概述大数据算法,第2章介绍时间亚线性算法,第3章介绍空间亚线性算法,第4章概述外存算法,第5章介绍大数据外存查找结构,第6章讲授外存图数据算法,第7章概述MapReduce算法,第8章通过一系列例子讲授MapReduce算法,第9章介绍超越MapReduce的算法设计方法,第10章讨论众包算法。大数据是当前最为流行的热点概念之一,其已由技术名词衍生到对很多行业产生颠覆性影响的社会现象,作为最明确的技术发展趋势之一,基于大数据的各种新型产品必将会对每个人的日常生活产生日益重要的影响。
2024-05-16 05:19:42
922
原创 最全职业院校大数据技术——数据挖掘1(1),2024年最新涨姿势
转换为x−aby−cd[x, y] 转换为 [(x - a) / b, (y - c) / d][x,y]转换为[(x−a)/b,(y−c)/d]。
2024-05-16 05:19:09
821
原创 最全群集搭建【LNMP+负载均衡+高可用+跳板机(1),大数据开发面试项目
因为本机创建的证书,所以会有风险警告,点击高级。现lnmp的负载均衡及高可用功能均已实现,但客户机仍服务直接访问后放mysql及web等主机,通过客户机访问代理服务器转跳至目标主机。通过关闭lb1的keepalived,查看lb2主机的ip地址, 确认漂移地址转到lb2主机上。开启lb1的 keepalived服务器,关闭nginx服务并访问网页会发现无法访问网页的问题,下面将进行故障解决。后面就是论坛的安装页面了,点击开始,输入数据库名、用户名密码及mysql服务器IP后点击提交,点击现在安装。
2024-05-16 05:18:35
1033
原创 大数据最新如何做大数据测试,一份非常适合收藏的大数据开发进阶面试题
Mapping Doc Validation(映射文件验证),验证映射文件是否提供了响应的ETL信息,且每个映射文档的更新日志有记录。拷贝验证,验证目标表中业务要求所有唯一性指标均正确的实现(例如主键、唯一标识的键、或其它任一唯一表示的列)数据完整性验证,在验证源和目标表中的数据集的完整性时,我们需要用到交集运算,以确定目标数据的完整性。Validatioin(验证),根据对应的映射文件验证源与目的地数据仓库的表结构。数据准确性,日期型验证,验证是否为日期格式,并且在所有日期类型数据的格式应该统一。
2024-05-15 20:32:23
369
原创 大数据最新大话数据结构--图(2),大厂内部资料
顶点表的各个节点由data和firstedge两个域表示,data是数据域,存储顶点的信息,firstedge是指针域,**指向边表(因为它是无向图,所以叫边表)**的第一个结点,即此顶点的第一个邻接点。
2024-05-15 20:31:50
281
原创 大数据最新大话数据结构--串(1),2024年最新2024年华为大数据开发面经
对于串的链式存储结构,与线性表是相似的,但由于串结构的特殊性,结构中的每个元素数据是一个字符,如果也简单的应用链表存储串值,一个结点对应一个字符,就会存在很大的空间浪费。 计算机中常用字符是使用标准ASCII编码,更准确一点,由7位二进制数表示一个字符,共可以表示128个字符,后来不够用了扩展ASCII码由8位二进制数表示一个字符,共可以表示256个字符,已经足够满足以英语为主的语言和特殊符号进行输入、存储、输出等操作的字符需要了。比如在计算机中存在-一个自由存储区,叫做“堆”。通常要进行下面的步骤。
2024-05-15 20:31:17
414
原创 大数据最新大牛呕心力作——Kafka开发实战,助你徜徉大数据时代,2024年最新先收藏了
Kafka快速入门消息引擎系统Kafka概要设计Kafka基本概念与术语Kafka使用场景本章小结。
2024-05-15 20:30:43
311
原创 基于PySpark的10亿级数据集LAION-5B元数据快速处理实践(全文分享)_laion-5b license
其中每个数据集官方提供了原始图片的URL,可以根据URL下载图片文件,以及些URL上的标签。这部分元数据被存储在parquet文件中。
2024-05-15 09:39:38
456
原创 基于neo4j知识图谱+flask的大数据医疗领域知识问答系统(完整源码+源码解析+开发文档
基于知识图谱+flask的KBQA医疗问答系统基于医疗方面知识的问答,通过搭建一个医疗领域知识图谱,并以该知识图谱完成自动问答与分析服务。基于知识图谱+flask的KBQA医疗问答系统以neo4j作为存储,本系统知识图谱建模使用的最大向前匹配是一种贪心算法,从句首开始匹配,每次选择最长的词语。由于只需一次遍历,因此在速度上相对较快。算法相对简单,容易实现和理解,不需要复杂的数据结构。对于中文文本中大部分是左向的情况,最大向前匹配通常能够较好地切分。
2024-05-15 09:39:02
454
原创 基于Mybatis-Plus实现Geometry字段在PostGis空间数据库中的使用_mybatisplus postgis
Setter@Getter@ToString@TableId提醒:1、在属性上使用@TableField(typeHandler=xxx)来指定对应的类型转换器。2、需要在实体上定义autoResultMap=true。否则配置不一定生效。!!
2024-05-15 09:38:26
528
原创 基于Mybatis-Plus实现Geometry字段在PostGis空间数据库中的使用_mybatisplus postgis(3)
的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
2024-05-15 09:37:50
492
原创 【一起学Rust 进阶篇 Grid库】二维表数据结构——Grid_grida结构软件(2)
Grid是个连续可增长的二维数据结构。这个 crate 的目的是提供一个比简单的解决方案更快、使用更少的内存并且更容易使用的通用的数据结构。Grid就像C语言风格的二维数组一样使用,拥有连续的存储内存。注意Grid采用行优先的方式进行内存布局,因此使用要比快得多。
2024-05-15 01:00:40
362
转载 【一起学Rust 基础篇】Rust基础——变量和数据类型_rust 变量指定数据类型
以上就是本期所要讲述的内容了。本期主要讲了变量的定义变量的可变性基本变量类型整型布尔型字符型复合型数组元组常量虽然很努力的组织内容了,但还是感觉不是很合理,在后期一定要调整,方便新手入门,让更多人能够学到Rust。作业完成以下作业是你学好rust的重要组成部分。以下题目摘自《Rust练习实践》
2024-05-15 00:59:28
712
原创 GaussDB(DWS)云原生数仓技术解析:湖仓一体,体验与大数据互联互通_gaussdbdws 数据中台(1)
云计算时代,数仓能为我们带来哪些便利?GaussDB(DWS)即将发布的云原生数仓如何构筑新一代数据仓库的技术底座,在云原生数仓的地基之上,数据时代的产业又将如何扩张、拓展?在本文中我们将带您解密华为云新一代云数仓 GaussDB(DWS) 3.0 的核心技术与划时代意义。声明:本文由作者“白鹿第一帅”于 优快云 社区原创首发,未经作者本人授权,禁止转载!爬虫、复制至第三方平台属于严重违法行为,侵权必究。文章作者白鹿第一帅作者主页,未经授权,严禁转载,侵权必究!
2024-05-14 15:38:37
497
原创 Flink的一个常见小坑 missing parameter type(从源码分析为啥换一个导入就可以)
/重头戏是这个隐式的implicitly[TypeInformation[T]]//寻找闭包函数,这个是常规操作。
2024-05-14 15:38:01
279
原创 Flink的一个常见小坑 missing parameter type(从源码分析为啥换一个导入就可以)(3)
点进来一看,这里没有什么问题呀,这里也确实没有问题。底层的原因是什么呢?我带着这个好奇心去源码里面看了一下。
2024-05-14 15:37:25
277
原创 Flink的一个常见小坑 missing parameter type(从源码分析为啥换一个导入就可以)(2)
使用@Lombok对class进行注解。
2024-05-14 15:36:49
389
原创 2024年最全大数据分析那点事,2024年华为大数据开发面经
*数值型数据属于一种特殊分类数据,即可以按数值型数据进行分类统计,如按每个年龄值进行分类统计,按每个收入值进行分类统计,不过类别值越多,其分类就越细,通常也就越难发现潜在规律。Python是一种免费、自由的编程语言,所以也称为Python语言,可以称得上既简单又功能强大的编程语言,它可用于软件、游戏、Web开发以及运维,当然也可以应用于数据分析、数据挖掘、数据可视化等,是一款强大的数据分析、数据挖掘工具。**常见的数据处理方法包括:**数据清洗、数据合并、数据抽取、数据计算、数据转换几大类方法。
2024-05-14 07:00:33
971
原创 2024年最全大数据分析-零基础学Tableau+超详细讲解+示例练习(八),2024年最新意外的惊喜
首先 创建两个字段,中国电影和美国电影总数。将年代更改为数字整数,创建数据桶,绘制完毕。如下图所示,生成漏斗图。
2024-05-14 06:59:57
365
原创 2024年最全大数据分析-零基础学Tableau+超详细讲解+示例练习(三),掌握这6大技能体系
动态气泡图绘制,在动态气泡图绘制时要把时间维度加上,根据情况选择是否选择轨迹,选好横纵坐标轴,右边可以设置循环速度。可以用智能推荐的方式(或者将标记设置为方形)快速创建凸显表,凸显表的本质也是表格,用表格表达数据的一种方式。词云图的绘制时从气泡图开始的,我们绘制好气泡图之后,将标记改为文本即可生成词云图。大小表示的是记录数的总计,颜色越深票房越高,可以通过智能推荐来绘制树形图。将渐变颜色设置为2阶,勾选倒序排序,并根据需要设置中心。气泡的大小代表电影数量的多少,颜色代表不同的类型。
2024-05-14 06:59:21
293
原创 2024年最全大数据分布式事务的深入理解?,15分钟的字节跳动视频面试
A账户跨行向B账户转账,第一阶段为银联收到转账申请后先向A账户所在银行发起扣钱操作,A只执行不提交也就是只在内存中对金额进行扣减但是不写入到磁盘中然后把执行成功的消息告诉银联,接着银联再向B的所在的银行发起加钱操作也只是在内存中对账户金额进行增加并不写入磁盘,然后再把执行成功的消息也告诉银联,第一阶段也可称为投票阶段,如果A、B操作都成功则投票成功,否则为失败。事务的理解,比如你要将账户A转1块钱到账户B中,那么这个行为在执行时会被拆分成两个步骤,第一步是将A账户扣掉1块钱,第二步就是将B账户加上1块钱;
2024-05-14 06:58:45
843
原创 2024年大数据最新ES学习日记(一)-------单节点安装启动_es 单节点运行启动命令,鬼知道我经历了啥
GeoLite2/GeoIP全球ASN-IP离线定位库,官网地址:https://dev.maxmind.com/geoip/geolocate-an-ip?我们现在并不需要这个库,但是elasticsearch启动却需要连接这个库,所以我们需要将这个连接的配置关闭,让启动的时候不去连接这个库。创建用户组,设置es操作用户:groupadd es,向ES用户组添加用户es:useradd es -g es。root权限变更为es权限 : chown -Rf es:es /home/local/es/
2024-05-13 22:12:20
317
原创 2024年大数据最新ElasticSearch面试题整理(持续更新)_elsearch面试题,真是恍然大悟啊
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。需要这份系统化资料的朋友,可以戳这里获取一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!5. Elasticsearch更新和删除文档的过程6. Elasticsearch创建索引文档的过程7. 了解文本相似度 TF-IDF吗TF = Term Freq
2024-05-13 22:11:44
796
原创 2024年大数据最新ElasticSearch第四章(数据同步和集群)(1),2024年最新2024年最新大数据开发面试精讲
因为ES中的是数据来自业务数据也就是数据库,比如mysql等,那么就需要把数据库的数据同步到ES中,那么什么时候进行数据同步呢?
2024-05-13 22:11:08
399
原创 2024年大数据最新Elasticsearch使用教程,2024年最新大数据开发系统面试题
GET my_index/_analyze { “analyzer”: “ik_max_word”, “text”:“蔡徐坤” }
2024-05-13 22:10:31
955
原创 每天一道大厂SQL题【Day11】微众银行真题实战(一)_微众银行大数据面试(1)
开发阶段,我们可以事先将表缓存起来,并且降低分区数比如为6,那么查缓存表大大提升了开发效率。duebill_id string comment ‘借据号’, uid string,)partitioned by (ds string comment ‘日期分区’);duebill_id string comment ‘借据号’,–技巧:如果查询debt表,由于分区数太多,导致查询很慢。ds string comment ‘日期分区’– 上线阶段,再用实际表替换缓存表。– 创 建 借 据 表。
2024-05-12 19:15:32
784
原创 每天一道大厂SQL题【Day10】电商分组TopK实战_有一个账号表如下,请写出 sql 语句,查询各自区组的 money 排名前十的账号(分组 取
gold int ’ 金 币 ’ 实现请写出SQL语句,查询充值日志表2019年01月02号每个区组下充值额最大的账号,要求结果: 区组id,账号,金额,充值时间。
2024-05-12 19:14:56
763
原创 每天一道大厂SQL题【Day10】电商分组TopK实战_有一个账号表如下,请写出 sql 语句,查询各自区组的 money 排名前十的账号(分组 取(3)
4、数据量要小,工具要快,如果用hive,就设置set hive.exec.mode.local.auto=true;,每个中间步骤都执行打印结果,看是否符合预期, 根据中间结果,进一步调整修饰SQL语句,再执行,直到接近结果表。从源表到结果表,一路可能要走多个步骤,其实就是可能需要多个子查询,过程多就用with as来重构提高可读性。参考答案适用HQL,SparkSQL,FlinkSQL,即大数据组件,其他SQL需自行修改。然后,可以使用排序,对每个分组按金额从大到小排序,并选取前10个记录。
2024-05-12 19:14:19
831
原创 每天一道大厂SQL题【Day10】电商分组TopK实战_有一个账号表如下,请写出 sql 语句,查询各自区组的 money 排名前十的账号(分组 取(2)
大家好,我是Maynor。相信大家和我一样,都有一个大厂梦,作为一名资深大数据选手,深知SQL重要性,接下来我准备用100天时间,基于大数据岗面试中的经典SQL题,以每日1题的形式,带你过一遍热门SQL题并给出恰如其分的解答。一路走来,随着问题加深,发现不会的也愈来愈多。但底气着实足了不少,相信不少朋友和我一样,日积月累才是最有效的学习方式!
2024-05-12 19:13:40
557
原创 最全金融数据_PySpark-3(1),2024年“金三银四”来袭
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。需要这份系统化资料的朋友,可以戳这里获取一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!2015-11-13,'000422,7.49,7.55,7.36,7.38,7.54,-0.021220,0.029196,26214400,7.53,7.412
2024-05-12 10:43:49
424
原创 最全金九银十|前端真实面试知识点梳理_前端项目经历的 star 法则(2),直面秋招
保证函数是独立可复用的,每次实例化一个组件的时候,都是可以生成一个data对象的,相互之间不干扰。
2024-05-12 10:43:12
286
原创 最全进阶C语言——数据的存储【详解】(1),你有过迷茫吗
大端(存储)模式,是指数据的低位保存在内存的高地址中,而数据的高位,保存在内存的低地址中;小端(存储)模式,是指数据的低位保存在内存的低地址中,而数据的高位,,保存在内存的高地址中为什么会有大小端模式之分呢?这是因为在计算机系统中,我们是以字节为单位的,每个地址单元 都对应着一个字节,一个字节为8 bit。
2024-05-12 10:41:59
340
原创 大数据最新数学基础从高一开始1、集合的概念_高一集合的概念,大数据开发开发者必看
2、衡水一中今年入学的全体高一学生;3、地球上的四大洋;4、不等式x-7
2024-05-12 02:06:05
670
原创 大数据最新数仓实践:浅谈 Kimball 维度建模_kimball维度建模,2024年最新大数据开发详解
雪花架构是对星形架构维度表的规范化,比如上述的商品表例子,在雪花架构中,其每一行仅存储品牌 ID ,而品牌的所有其他信息(包括品牌名称、拥有者、注册地等所有描述信息)都存储在单独的品牌维度表内。星形架构中,每个维度都是均等的,所有维度表都是进入事实表的对等入口,用户可以从任一维度、任一维度属性或者任意多个维度组合、任意多个维度属性组合,方便地对数据进行过滤和聚合(汇总、均值、最大、最小等)操作,而且非常符合业务分析直觉。业务是多变的,模型的设计必须能够经受住业务多变的需求。
2024-05-12 02:05:29
699
原创 大数据最新数仓实践:企业级 CDP 数据工程实践经验_cdp系统中事件和属性(1),一文搞懂
通过对数据质量的评估,我们可以了解数据的可靠性和可用性,并为后续的数据处理和分析工作提供基础。:在调研过程中,我们需要详细了解数据的内容和数据之间的关系。通过了解客户的数据,以及评估数据的内容、关系和质量,我们可以确保在后续的数据工程实践中获得高质量和有价值的数据资源。通过对标签体系和口径数据的梳理,我们可以确保在后续的数据处理和分析过程中,能够基于准确和可靠的标签数据进行业务指标的衡量和分析。通过有效的ETL运维工作,我们能够保证ETL系统的稳定运行,及时处理数据质量问题,并适应业务需求的变化。
2024-05-12 02:04:53
888
原创 大数据最新搭建简易的hadoop集群(完全分布式),2024年最新最新大数据开发面试题整理
确保3台节点启动成功打开xshell,新建两个会话点击确定点击确定选中3个会话,点击连接弹出如下提示,输入yes即可。
2024-05-12 02:04:16
393
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人