
大数据与AI测试
文章平均质量分 82
大数据与AI测试汇总专栏
李先森&Mr.Li
我看到了太多想提升测试技术而没有明确方向的人,深刻的体会到测试人员的技术痛点,以及测试这个角色在互联网公司的待遇和地位远不及其他岗位,甚至还是会有很多人会认为测试在公司随时能被取代,可有可无。那么在软件测试行业如果只会手工测试的我不做测试了,我还能做什么?唯一办法就是保持持续的学习!!!
展开
-
怎么对BI报表展开测试?
前言:BI报表测试是一项重要的测试内容,因为面对的使用群体一般是公司高层或者用户中的重要群体。出现问题影响较大,所以必须仔细且谨慎对待。本文根据自己之前的测试经验,结合其它相关资料,做个简单的总结汇总,如有其它建议,可以留言或者私聊,期待沟通交流。针对BI报表测试,一般情况下,我们需要自己准备数据,来验证报表统计的准确性。由于系统的构成不一样,简单把报表测试过程分解为两个层次:数据收集汇总、数据统计展。在做数据收集汇总验证时,我们需要了解数据从哪里来,如何汇总,数据入库的规则是什么,如何存放,在什么时间点进转载 2022-06-27 09:22:13 · 23866 阅读 · 0 评论 -
看看别人是如何进行大数据测试的?
前言:我之前是做大数据测试的,熟悉我的小伙伴应该都知道,前面我写过两篇文章《什么是大数据测试?》、《怎么进行大数据测试?我们需要具备怎样的测试能力?》,当然,这篇文章我对大数据测试介绍的比较笼统,所以今天我在详细补充一下,主要是看看别人是如何进行大数据测试的,另外我推荐在做大数据测试的同学或者将要做大数据测试的同学去看看我正在看的两本书,我想看了之后你应该是有收获的——《机器人学习测试入门与实践》、《大数据测试技术与实践》,第一本书是我20年买的,第二本书是我21年买的,总体我收获还是挺多的!看看别人是如原创 2022-03-08 09:42:43 · 80424 阅读 · 2 评论 -
mysql跨库分页、分表为什么这么难?
前言:当业务数据达到一定量级(比如:mysql单表记录量>1千万)后,通常会考虑“分库分表”将数据分散到不同的库或表中,这样可以大大提高读/写性能。但是问题来了,对于 select * from table limit offset , pagesize 这种分页方式,原来一条语句就可以简单搞定的事情会变得很复杂,本文将与大家一起探讨分库分表后"分页"面临的新问题。mysql跨库分页、分表为什么这么难?一、分表对分页的影响1.1 分段法1.2 模余均摊法二、全局法(limit x+y)2.1 按分段转载 2021-10-12 14:24:43 · 79594 阅读 · 0 评论 -
ETL 测试怎么做
前言:ETL 测试分享ETL 测试怎么做一、ETL 的概念1、什么是ETL2、ETL测试流程二、ETL测试工具(QuerySurge)一、ETL 的概念1、什么是ETLETL是将分布的、异构的数据源中的数据抽取到中间层,进行清洗转换集成,最终载入到数据仓库中。one ==>anotherE->Extract(抽取),关键元素:源数据的数据,例如关系数据、平面数据(Excel,csv,log文件)T->Transform(转换),关键元素:映射模型,主要描述源数据与目标数据格式原创 2021-09-27 11:52:23 · 39870 阅读 · 0 评论 -
常用Hive函数分享
前言:分享下常用的Hive函数常用Hive函数分享1. 字符函数1.1 concat 拼接函数1.2 concat_ws 拼接并分割1.3 substr/substring 截取字符串1.4 trim 去除两边空格1.5 repeat 复制字符串1.6 lpad 左填充字符串1.7 rpad 右填充字符串1.8 split 分割函数1.9 find_in_set:2. 聚合函数2.1 count 汇总统计2.2 sum 相加求和2.3 avg2.4 collect_list2.5 collect_set3原创 2021-09-27 11:44:47 · 39543 阅读 · 1 评论 -
离线数仓和实时数仓架构与设计
前言:离线数仓和实时数仓架构与设计讲解离线数仓和实时数仓架构与设计一、数仓架构演变(场景驱动)二、离线大数据架构三、离线数仓分层四、离线大数据架构典型案例1、Lambda架构1.Lambda架构2.Lambda架构进一步了解3.Lambda架构典型案例4.Lambda架构典型案例(有赞广告团,基于Druid)5.Lambda架构存在的问题2、Kappa架构1.Kappa架构典型案例2.Kappa架构典型案例(一Kylin为例)3.Kappa架构的重新处理过程3、Lambda架构 vs Kappa架构的对比原创 2021-09-27 11:32:49 · 118255 阅读 · 0 评论 -
Spark基础操作(二)
前言:我们来继续学习Spark基础吧!如何创建一个Pair的RDD我们有很多种方式创建一个pair的RDD,为了我们演示方便,我们使用在已有的RDD中使用map()方法来创建一个RDD的方式。如下:rdd4 = sc.parallelize(['age 29', 'count 3', 'age 33', 'count 55'])D = rdd4.map(lambda x: (x.split(" ")[0], x.split(" ")[1]))D = rdd4.map(lambda x: (x.sp转载 2021-08-24 18:03:41 · 79730 阅读 · 0 评论 -
Spark基础操作(一)
前言:我们来学习Spark基础吧!一、搭建学习环境1、下载spark我使用的是spark1.6.2,下载地址我们直接下载,然后解压。我们看看里面的目录2、python-shell我们运行bin/pyspark之后就进入了spark的python shell。我们为了验证是否成功了,可以运行下面的代码lines = sc.textFile("README.md")print lines.first()接下来就会看到打印出一条信息:# Apache Spark。 spark提供的pytho转载 2021-08-24 17:45:30 · 85610 阅读 · 0 评论 -
基于Flink的实时数据消费应用、功能质量保障方法
前言:由于最近公司的实时数据处理引擎再向Flink迁移,所以专门设计、总结了一篇“基于Flink的实时数据消费应用、功能质量保障方法”。欢迎大家一起分享探讨在大数据方面的测试方法和经验。一、什么是Flink?Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行。二、为什么在转载 2021-08-24 16:40:32 · 40043 阅读 · 1 评论 -
大数据领域的性能测试Benchmark介绍
前言:大数据领域的性能测试Benchmark介绍,需要的可以看看!一、Benchmark简介Benchmark是一个评价方式,在整个计算机领域有着长期的应用。正如维基百科上的解释“As computer architecture advanced, it became more difficult to compare the performance of various computer systems simply by looking at their specifications.Therefo转载 2021-08-24 16:06:42 · 40172 阅读 · 0 评论 -
如何把timestamp数据类型存储到hive中
前言:我们在测试hive数据时,经常要入库数据到hive中,无论是从其它数据库入库到hive中还是从本地导入数据到hive中,会遇到timestamp格式的数据,那么我们怎么导入进去呢?一、首先建立一个人临时表,把数据中timestamp格式全部变为string格式CREATE TABLE `dwd.dwd_jp_user_member_bk`( `etl_insert_date` string, `batch_task_name` string, `member_id` string原创 2021-04-06 10:17:58 · 82296 阅读 · 0 评论 -
在工作中往hive插入数据过程中发现的一些坑
前言:近期在工作中往hive插入数据的过程中,发现了一些坑,它们也许是Hive提倡的比关系数据库更加自由的体现(同一时候引来一些问题)。也许是一些bug。总而言之,这些都须要使用Hive的IT人员需要额外注意,希望大家注意。一、数据导入的六种方式1、加载本地文件到hive表2、加载hdfs文件到hive中3、加载数据覆盖表中已有的数据4、创建表时通过select加载create table if not exists default.dept_catsas select * from原创 2020-12-17 17:02:51 · 169679 阅读 · 1 评论 -
想要提升用户转化率?10种数据分析方法带你飞!
前言:在数据分析和产品、运营优化方面,数据分析方法是其核心,属于“法”和“术”的层次。那么如何做好数据分析呢,今天我们来讲讲互联网运营中的十大数据分析方法。道家强调四个字,叫“道、法、术、器”。层次区别:“器”是指物品或工具,在数据分析领域指的就是数据分析的产品或工具,“工欲善其事,必先利其器”;“术”是指操作技术,是技能的高低、效率的高下,如对分析工具使用的技术(比如用Excel进行数据分析的水平);“法”是指选择的方法,有句话说“选择比努力重要”;“道”是指方向,是指导思想,是战略。1、细分原创 2020-10-12 10:35:56 · 17151 阅读 · 0 评论 -
ClickHouse居然比mysql快200倍,这效率会干掉传统数据库么?
前言:目前刚换新工作,前公司用的较多的是mysql,多表关联查询时效率不是很理想,尤其是后面引入了FineReport做报表分析时效率更是低的吓人,在这里我接触到了ClickHouse,瞬间就被其惊人的性能所折服。这款非Hadoop生态、简单、自成一体的技术组件引起了我极大的好奇。那么ClickHouse好在哪呢?本文带你做一个初步了解。ClickHouse 的来源ClickHouse 是 Yandex(俄罗斯最大的搜索引擎)开源的一个用于实时数据分析的基于列存储的数据库,其处理数据的速度比传统方法快转载 2020-09-30 08:29:46 · 18189 阅读 · 0 评论 -
你所不知道的MySQL数据库性能优化方案
MySQL数据库中最重要的一个概念就是数据库引擎,不同的数据库引擎的工作原理存在很大差异最终造成MySQL数据库服务的性能差异。原创 2020-06-09 10:19:54 · 17378 阅读 · 0 评论 -
开发过程中最常犯的10个MySQL错误
前言:开发过程中最常犯的10个MySQL错误,你犯过这些错误么?1、使用MyISAM而不是InnoDBMySQL有很多数据库引擎,但是你最可能碰到的就是MyISAM和InnoDB。MySQL 默认使用的是MyISAM。但是,很多情况下这都是一个很糟糕的选择,除非你在创建一个非常简单抑或实验性的数据库。外键约束或者事务处理对于数据完整性 是非常重要的,但MyISAM都不支持这些。另外,当有一条记录在插入或者更新时,整个数据表都被锁定了,当使用量增加的时候这会产生非常差的运行效率。结论很简单:使用Inn原创 2020-09-10 09:58:12 · 453 阅读 · 0 评论 -
MySQL延迟问题和数据刷盘分析
前言:本文教你MySQL延迟问题和数据刷盘分析!一、MySQL复制流程官方文档流程如下:MySQL延迟问题和数据刷盘策略1、绝对的延时,相对的同步2、纯写操作,线上标准配置下,从库压力大于主库,最起码从库有relaylog的写入。二、MySQL延迟问题分析1、主库DML请求频繁原因:主库并发写入数据,而从库为单线程应用日志,很容易造成relaylog堆积,产生延迟。解决思路:做sharding,打散写请求。考虑升级到MySQL5.7+,开启基于逻辑时钟的并行复制。2、主库执行大事务原因原创 2020-09-10 09:52:48 · 422 阅读 · 0 评论 -
作为测试工程师,你一定要知道的数据库操作命令大全!
前言:作为测试工程师,你还不会数据库操作么?那么就跟我一起学习吧!一、基础1、说明:创建数据库CREATE DATABASE database-name 2、说明:删除数据库drop database dbname3、说明:备份sql server— 创建 备份数据的 deviceUSE masterEXEC sp_addumpdevice 'disk', 'testBack', 'c:\mssql7backup\MyNwind_1.dat'— 开始 备份BACKUP DATAB原创 2020-09-09 10:56:51 · 2037 阅读 · 0 评论 -
怎么进行大数据测试?我们需要具备怎样的测试能力?
前言:现在大数据这么火,那么作为测试人员,我们应该怎么进行大数据测试?需要具备怎样的测试能力?一、大数据测试实现被分成三个步骤(1):数据阶段验证大数据测试的第一步,也称作pre-hadoop阶段该过程包括如下验证:1、来自各方面的数据资源应该被验证,来确保正确的数据被加载进系统2、将源数据与推送到Hadoop系统中的数据进行比较,以确保它们匹配3、验证正确的数据被提取并被加载到HDFS正确的位置该阶段可以使用工具Talend或Datameer,进行数据阶段验证。(2):"MapReduc原创 2020-09-08 16:10:10 · 56250 阅读 · 6 评论 -
什么是大数据测试?
前言:近两年互联网行业动不动就喊着“大数据”的口号,大数据的诞生让很多企业节省人力物力实现精准营销获得丰厚利润。随着数据工程和数据分析技术的不断进步,大数据测试不可避免。大数据是用于大量结构化、半结构化、非结构化数据的术语,这些数据有可能提供一些信息。谈论大数据时,具体的数据量无从告之,但通常都是拍字节(Petabytes)和艾字节(Exabytes)数量级的。如此大量的数据很难集成。大数据,活泼的快速移动数据,有助于更好地了解客户和产品,从而带动业务增长。尽管有许多技术可用,技术人员仍然很难找出从哪里开原创 2020-09-08 15:40:16 · 167495 阅读 · 6 评论