自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(394)
  • 资源 (73)
  • 收藏
  • 关注

原创 使用C#实现从Hive的CREATE TABLE语句中提取分区字段名和数据类型

代码说明:正则表达式优化:核心解析逻辑:性能优化:关键方法:该实现能够正确处理以下复杂场景:

2025-04-03 21:49:27 73

原创 C#实现HiveQL建表语句中特殊数据类型的包裹

用C#实现搜索字符串中用’(‘和’)‘包裹的最外层的里面里面的字符串,将里面的记录按一个或多个空格、换行或tab,或者是它的在一起的组合作为分隔,分隔出多个字符串组,如果组中有字符串中同时包含’<‘和’>’,则在原始的字符串中该字符串的位置的前后插入字符`,最后返回修改过后的字符串,优化这个字符串处理算法,并给出所有的测试用例。

2025-04-02 19:04:32 229

原创 判断一个字符串中排除空格和换行以外字符运行不同的逻辑

写一个C#字符串解析程序代码,逻辑是从前到后一个一个读取字符,遇到匹配空格、Tab和换行符就继续读取下一个字符,遇到大写或小写的字符a,运行方法a(),遇到大写或小写的字符b,运行方法b(),遇到大写或小写的字符c,运行方法c(),否则运行方法d()。

2025-04-01 21:28:12 214

原创 判断HiveQL语句为ALTER TABLE语句的识别函数

【代码】判断HiveQL语句为ALTER语句的识别函数。

2025-04-01 19:25:35 185

原创 判断HiveQL语句为建表语句的识别函数

并能够准确识别:普通表、外部表和临时表三种类型,同时拒绝不符合格式的输入。

2025-04-01 19:00:37 441

原创 Apache Hive和Snowflake的`CREATE VIEW`语法和功能特性整理的对比表

语句的程序,现在需要一个根据功能的相似性对应的Apache HiveQL和Snowflake SQL的。、列注释、视图注释、跨数据库、表属性)的复杂视图,统计202年销量前十的商品。:创建一个动态过滤最近7天订单的视图,实际分区剪裁依赖基表分区策略。,但Hive通常不支持视图更新操作,此子句可能被忽略。通过组合上述语法元素,可以灵活创建符合业务需求的视图。:创建一个视图,展示客户及其已完成订单的信息。创建新视图,筛选消费额超过10,000的客户。的常见用法,并标注了它们的相似性和差异性。

2025-03-31 22:56:19 1025

原创 Apache Hive中数据类型转换为对应Snowflake中数据类型的方法

为了写一个Apache Hive中数据类型转换为对应Snowflake中数据类型的程序,现在需要一个根据功能的一致性对应的Apache Hive和Snowflake的数据类型的表,请阅读以下Hive的数据类型和Snowflake的数据类型的链接,然后写出这张映射表,如果Snowflake中没有对应的Hive数据类型,则设置为string类型。Hive的数据类型:Snowflake的数据类型:根据Hive和Snowflake的官方文档分析,以下是数据类型映射表。

2025-03-31 17:45:04 628

原创 Apache Hive和Snowflake的`CREATE TABLE`语法和功能特性整理的对比表

写一个Apache Hive中语句转换为对应Snowflake中语句的程序,现在需要一个根据功能的相似性对应的Apache HiveQL和Snowflake SQL的语句的表。以下是Apache Hive中。

2025-03-31 12:52:08 887

原创 Python将MySQL数据库中所有表的数据都导出为CSV文件并压缩

Python将MySQL数据库中所有表的数据都导出为CSV文件到一个目录,并压缩为zip文件到另一个目录下,然后解压缩这个目录中的所有zip文件到第三个目录下。不使用Pandas库,需要考虑SQL结果集是大数据量分批数据导出的情况,通过多线程和异步操作来提高程序性能,程序需要异常处理和输出,输出出错时的错误信息,每次每个查询导出数据的运行状态和表数据行数以及运行时间戳,导出时间,输出每个文件记录数量的日志。该脚本已在考虑大数据量、异常处理和性能优化的基础上进行了全面设计,能够处理大多数常见场景。

2025-03-25 06:29:19 711

原创 Python实现MySQL数据库对象的血缘分析

Python控制台的程序,实现遍历MySQL中所有的SQL对象(表、视图、用户定义函数、存储过程和触发器等),并取得它们之间之前的依赖性关系,并列出三张表,第一张表的第一列是所有的SQL对象名称,第二列是它的数据的生成路径,路径中的相邻SQL对象之间用“->”隔开,如果有多条路径,就存储多条记录,第二张表是根据依赖性生成所有表的列表,依懒性从上到下依次递增,第三张表是根据依赖性生成所有第二张表中表数据的存储过程列表,依懒性从上到下依次递增,存储在Excel文件中。

2025-03-24 20:07:39 1068

原创 Java Spring Cloud应用全栈性能优化指南

本文将全面介绍针对Java Spring Cloud应用的全栈性能优化方案,涵盖应用层、系统层和JVM层,旨在显著提升应用的吞吐量,降低延迟,增强系统的稳定性和响应能力。通过 ss -s 统计连接状态,使用 nstat -z | grep -i ‘TcpExtTCPSlowStartRetrans’ 检测TCP重传,优化网络性能。利用JVM监控工具(如JVisualVM、JConsole、Prometheus + JMX),监控内存使用、GC次数和响应时间,及时调整JVM参数。(一)内核参数优化(通用)

2025-03-24 06:53:41 1007

原创 Spring Boot网站性能优化全解析

另外,Arch Linux下启用 noatime 和 nodiratime 选项减少磁盘访问,CentOS Linux下配置防火墙规则减少不必要连接和过滤,禁用不必要服务减少资源消耗。此外,还需设置合理JVM堆内存大小,配置GC日志分析垃圾回收情况,使用JVM工具监控性能,调整垃圾回收相关参数,开启JVM压缩指针减少堆内存占用,根据并发情况调整JVM线程池大小。配置持久化 /etc/sysctl.d/99-tuning.conf /etc/sysctl.conf。一、Spring Boot应用层优化。

2025-03-23 19:55:01 721

原创 Linux下ASP.NET Core 6.0性能优化全攻略:从代码到系统配置

以下优化方案需根据实际硬件配置和业务场景调整参数,建议通过持续性能分析(如使用JetBrains dotTrace)进行精准优化,以确保ASP.NET Core 6.0应用在高并发场景下保持良好的响应能力和稳定性。例如,在处理大量数组操作时,使用 ArrayPool 来获取和归还数组,避免频繁的内存分配与回收。例如,在拼接大量字符串时,使用 StringBuilder 来构建字符串,减少内存分配。对于短生命周期和小对象,优先使用值类型(struct),避免使用引用类型(class),以减少垃圾回收压力。

2025-03-23 17:36:32 936

原创 基于AWS Endpoint Security(EPS)的混合云统一安全管理

建议定期执行安全基线扫描(推荐每周全量扫描+每日增量扫描),并通过Security Hub生成统一的安全报告。设计AWS云架构方案实现基于AWS Endpoint Security(EPS)的混合环境统一管理,对于使用Site-to-Site VPN或Direct Connect的混合云架构,EPS可同时覆盖本地服务器与云上资源,提供一致的安全策略管理,避免因环境异构导致的安全盲区,以及具体实现的详细步骤和关键代码。

2025-03-22 20:05:05 530

原创 稳定运行的以ElasticSearch数据库为数据源和目标的ETL性能变差时提高性能方法和步骤

在使用作为数据源和目标的 ETL(Extract, Transform, Load)过程中,性能逐渐变差的原因可能有很多,比如查询效率下降、集群负载过高、资源配置不合理等。性能的提升通常需要从多个方面入手,尤其是在处理大量数据时。通过合理的硬件配置、索引优化、查询优化以及批量处理等手段,可以大大提高基于 Elasticsearch 的 ETL 性能。此外,定期的监控与分析也是确保长时间稳定运行的关键。

2025-03-22 16:24:31 988

原创 稳定运行的以Oracle NoSQL数据库为数据源和目标的ETL性能变差时提高性能方法和步骤

提高基于Oracle NoSQL数据库的ETL(提取、转换、加载)性能时,主要从多个角度进行优化。提高基于Oracle NoSQL数据库的ETL性能需要综合考虑多个方面,关键是减少不必要的I/O操作、优化数据转换和加载过程、合理配置Oracle NoSQL数据库及ETL工具的并行化处理能力。通过持续的监控与调优,可以确保ETL流程在稳定运行的基础上进一步提升性能。

2025-03-22 16:13:23 994 1

原创 基于AWS Endpoint Security的合规性保障

设计AWS云架构方案实现基于AWS Endpoint Security(EPS)的合规性保障,使用EPS持续收集终端设备的安全状态数据(如补丁版本、密码策略),并通过CloudWatch生成合规性报告。企业可利用这些数据满足GDPR、HIPAA等法规对终端设备的安全审计要求,以及具体实现的详细步骤和关键代码。该方案通过自动化收集终端安全数据,实时监控合规状态,并生成审计报告,满足GDPR/HIPAA要求。关键点包括SSM与CloudWatch的集成、自定义脚本的数据采集,以及Lambda的自动化处理。

2025-03-22 16:11:22 889

原创 稳定运行的以Neo4j图数据库为数据源和目标的ETL性能变差时提高性能方法和步骤

当Neo4j图数据库作为ETL过程中的数据源和目标时,ETL性能下降可能是由于多个因素引起的。

2025-03-22 16:05:51 738

原创 AWS中通过Endpoint Security(如Amazon GuardDuty)与安全组、网络ACL联动实现协同防御

设计AWS云架构方案实现基于AWS Endpoint Security(EPS)与AWS服务深度集成,结合AWS CLI或管理控制台,EPS与VPC安全组、网络ACL联动,实现网络层与终端层的协同防御。例如,当EPS检测到某实例被入侵时,可通过API自动调整安全组规则,限制其出站流量,以及具体实现的详细步骤和关键代码。通过此方案,可实现终端层与网络层的实时联动防御,提升AWS环境的安全性。

2025-03-22 11:31:46 714

原创 基于AWS Endpoint Security(EPS)的全天候威胁检测与响应闭环管理

设计AWS云架构方案实现基于AWS Endpoint Security(EPS)的全天候威胁检测与响应,使用EPS通过代理实时监控终端进程、网络连接等行为,例如检测异常登录尝试或恶意软件活动。一旦发现威胁,系统会自动生成安全事件工单并触发响应流程,如隔离受感染实例或阻断可疑IP,实现从检测到处置的闭环管理,以及具体实现的详细步骤和关键代码。可以设计方案通过AWS原生服务实现安全威胁的实时检测、自动响应和闭环管理,结合事件驱动架构确保快速处置,同时保持架构的可扩展性和安全性。

2025-03-22 10:13:37 532

原创 基于AWS Endpoint Security(EPS)的自动化安全基线部署

设计AWS云架构方案实现基于AWS Endpoint Security(EPS)的自动化安全基线部署,AMS Advanced(AWS托管服务)环境会为所有新部署的资源自动安装EPS监控客户端,无需人工干预即可建立统一的安全基线。这种自动化机制特别适用于动态扩缩的云环境,确保新启动的EC2实例、容器等终端设备从初始状态即受保护,以及具体实现的详细步骤和关键代码。建议配合AWS Config和Security Hub进行持续监控,形成完整的安全态势管理闭环。

2025-03-22 09:19:38 551

原创 基于Azure Delta Lake和Databricks的安全数据共享(Delta Sharing)

设计Azure云架构方案实现Azure Delta Lake和Azure Databricks的安全数据共享(Delta Sharing),实现安全分发数据,生成只读共享链接(Bearer Token),第三方可直接查询 Azure 数据(无需复制),以及跨公司数据协作(如供应商获取脱敏后的销售数据),以及具体实现的详细步骤和关键PySpark代码。接收方通过标准PySpark接口访问,降低协作门槛。

2025-03-22 08:48:31 943

原创 基于Azure云平台整合Delta Lake、Databricks和Azure Machine Learning的MLOps架构

设计Azure云架构方案实现Azure Delta Lake和Azure Databricks的机器学习工程(MLOps),提供可靠数据集使得训练数据版本化,确保模型复现性,并集成 Azure Machine Learning,以便通过 Delta Sharing 共享数据集,支持多人协作。

2025-03-22 07:55:16 1021

原创 基于Azure Delta Lake与Databricks的医疗数据变更管理

设计Azure云架构方案实现Azure Delta Lake和Azure Databricks,在医疗场景下记录所有数据变更,满足合规性要求(如 GDPR),并具备回滚能力,能快速恢复误删数据(如 RESTORE TABLE table VERSION AS OF 10 ),以及具体实现的详细步骤和关键PySpark代码。该方案通过Delta Lake的原子性事务、CDF和Time Travel,结合Databricks的分布式计算能力,实现医疗数据的全生命周期管理。

2025-03-21 22:50:44 1082

原创 Azure Delta Lake、Databricks和Event Hubs实现实时欺诈检测

设计Azure云架构方案实现Azure Delta Lake和Azure Databricks,结合 Azure Event Hubs/Kafka 摄入实时数据,通过 Delta Lake 实现 Exactly-Once 语义,实时欺诈检测(流数据写入 Delta Lake,批处理模型实时更新),以及具体实现的详细步骤和关键PySpark代码。完整实现代码需要根据具体数据格式和业务规则进行调整,建议通过Databricks Repos进行CI/CD管理。

2025-03-21 21:53:38 981

原创 基于Azure云平台构建实时数据仓库

设计Azure云架构方案实现Azure Delta Lake和Azure Databricks,结合电商网站的流数据,构建实时数据仓库,支持 T+0 报表(如电商订单分析),具以及具体实现的详细步骤和关键PySpark代码。

2025-03-21 21:34:38 976

原创 Azure云平台数据库迁移方案全解析

明确迁移类型,如本地数据库迁移至Azure云(如Azure SQL Database、Cosmos DB、MySQL/PostgreSQL托管服务);使用Azure Database Migration Service (DMS) ,创建DMS实例并配置源(本地SQL Server)与目标(Azure SQL),先进行全量迁移实现初始数据同步,再进行增量同步持续捕获源库变更(需启用CDC或事务日志备份),最后切换应用连接至目标数据库,完成迁移,支持TB级数据,停机时间仅分钟级。

2025-03-21 21:16:47 584

原创 稳定运行的以Microsoft Azure Cosmos DB数据库为数据源和目标的ETL性能变差时提高性能方法和步骤

在以数据库为数据源和目标的 ETL (提取、转换、加载) 过程中,性能变差时,可能有多种原因。提高以为数据源和目标的 ETL 性能,通常涉及数据库配置、查询优化、并发执行、数据传输优化和使用 Cosmos DB 特性等多个方面。

2025-03-21 20:29:39 806

原创 优化Apache Spark性能之JVM参数配置指南

关键参数为 -Xms (初始堆)和 -Xmx (最大堆)。同时,也可通过 spark.executor.memory 和 spark.driver.memory 来调整内存大小,如 --conf spark.executor.memory=8g --conf spark.driver.memory=8g。使用Kryo序列化,以减少内存占用,配置为 --conf spark.serializer=org.apache.spark.serializer.KryoSerializer。

2025-03-19 22:46:24 902

原创 稳定运行的以Microsoft Azure SQL database数据库为数据源和目标的ETL性能变差时提高性能方法和步骤

在以为数据源和目标的 ETL(Extract, Transform, Load)过程中,性能问题可能会随着数据量的增加、查询复杂度的提升或系统负载的加重而逐渐变差。提高以 Microsoft Azure SQL Database 为数据源和目标的 ETL 性能需要综合考虑数据库查询优化、数据加载策略、并行处理、资源管理等方面。通过合适的索引、查询优化、批量处理、增量加载和数据库资源配置,可以显著提升 ETL 流程的性能。定期监控性能并根据负载情况进行调整,也是确保系统稳定运行的关键。

2025-03-19 13:04:28 1081

原创 GraphCube、Spark和深度学习技术赋能快消行业关键运营环节

在快消品(FMCG)行业,需求计划(Demand Planning)、库存管理(Inventory Management)和需求供应管理(Demand Supply Management)是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合,为这些环节提供了智能化、动态化和实时化的解决方案,显著提升业务运营效率和企业利润。打造弹性供应链,快速应对市场波动,提升客户满意度;一、技术在各环节的具体应用。三、整合价值与实施路径。

2025-03-18 19:18:49 990

原创 Arch Linux高性能数据处理优化指南

Arch Linux是一款高度自定义的发行版,为高性能数据处理任务提供了广阔的优化空间。通过从内核、文件系统、内存管理、CPU调度到网络、编译等多个层面进行系统性优化,可显著提升其在科学计算、实时分析等场景下的数据处理性能。

2025-03-18 06:43:25 1292

原创 CentOS高性能数据处理优化指南

针对SSD或NVMe,调整I/O调度算法,如 echo noop > /sys/block/sda/queue/scheduler (SSD建议使用noop或deadline),并修改 /etc/rc.local 永久生效。同时,优化TCP堆栈,增加TCP缓冲区大小;使用更高带宽网络接口减少延迟。通过 top 、 htop 、 iotop 等工具实时监控系统资源使用情况,使用 perf 、 strace 、 oprofile 等工具进行性能分析,使用 tune2fs 、 sysctl 等工具进行调优。

2025-03-17 23:05:07 766

原创 Linux下用Bash Shell脚本和mysql命令行程序实现带多组参数和标签的MySQL数据库批量数据导出程序

Bash Shell脚本需要异常处理,输出带时间戳和每个运行批次和每个导出文件作业运行状态的日志文件,每天单独一个带日期的和.log扩展名日志文件,放在logs子目录中,参数全部设置在json配置文件中。

2025-03-17 19:03:10 406

原创 Powershell和bcp工具实现带多组参数和标签的SQL Server数据库批量数据导出程序

设计一个基于多个带标签SQL模板作为配置文件和多组参数的Powershell代码程序和bcp工具,实现根据不同的输入参数,自动批量地将SQL Server数据库的数据导出为CSV文件到指定目录上,标签和多个参数(以“_”分割)为组成导出数据文件名,文件已经存在则覆盖原始文件。Powershell程序需要异常处理,输出带时间戳和每个运行批次和每个导出文件作业运行状态的日志文件,每天单独一个带日期的和.log扩展名日志文件,放在logs子目录中,参数全部设置在json配置文件中。

2025-03-17 12:38:27 638

原创 稳定运行的以MongoDB数据库为数据源和目标的ETL性能变差时提高性能方法和步骤

在使用 MongoDB 作为数据源和目标的 ETL(提取、转换、加载)过程中,如果性能变差,可能是由于多种原因导致的。为了提高性能,可以按照以下方法和步骤进行排查和优化:提高 MongoDB ETL 性能需要从多个方面入手,包括优化数据模型、改进 ETL 过程、调整 MongoDB 配置、提高硬件性能、监控性能瓶颈等。通过综合考虑和优化这些因素,可以显著提升 ETL 的处理速度和稳定性。

2025-03-17 12:34:14 1600

原创 软件架构设计、详细设计和开发编码的过程中提高性能的技巧和方法

在软件的全生命周期中,性能优化是至关重要的环节,它贯穿了从架构设计到开发编码,再到性能测试与监控的全过程。通过结合架构扩展性设计、算法优化、并发控制和持续监控,能够系统性地提升软件性能。在实际项目中,需要依据具体场景选择性价比最高的策略,例如秒杀系统侧重缓存和限流,大数据平台则着重优化磁盘IO和计算并行度。下面从不同阶段详细阐述关键技巧和方法,并结合实际场景进行举例说明。一、架构设计阶段的性能优化。二、详细设计阶段的性能优化。三、开发编码阶段的性能优化。

2025-03-16 16:19:11 869

原创 稳定运行的以PostgreSQL数据库为数据源和目标的ETL性能变差时提高性能方法和步骤

在使用PostgreSQL作为数据源和目标的ETL(Extract, Transform, Load)过程中,当ETL性能变差时,可以通过一系列方法来诊断问题并提高性能。提高PostgreSQL数据库ETL性能的核心思想是从数据库配置、查询优化、硬件资源、并行处理等多个方面入手。通过上述方法逐步优化,可以大幅提升ETL过程的效率。

2025-03-16 08:01:00 1169

原创 稳定运行的以Oracle数据库为数据源和目标的ETL性能变差时提高性能方法和步骤

要提高以为数据源和目标的ETL性能,需要综合考虑数据库性能优化、ETL工具配置、查询优化、并行处理和资源管理等多个方面。优化过程中要根据具体的ETL场景和工具来选择适合的方案,同时建议进行逐步调优,测试不同方案的效果,找到最佳平衡点。当以为数据源和目标的性能变差时,通常是由多个因素引起的。

2025-03-15 21:48:57 851

原创 使用Java 8对比Oracle SQL查询结果和CSV文件内容的差异

需要考虑SQL结果集是大数据量分批数据导出的情况,通过多线程和异步操作来提高程序性能,程序需要异常处理和输出,输出出错时的错误信息,每次每个查询导出数据的运行状态和表数据行数以及运行时间戳,导出时间,输出每个文件记录数量的日志。此方案通过流式处理和异步写入有效处理大数据量场景,确保高效性和可靠性。

2025-03-15 17:35:44 304

Spark技术参考手册

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

2022-07-08

Databricks技术参考手册

Databricks是Spark 的商业化公司,致力于提供基于 Spark 的云服务,可用于数据集成,数据管道等任务。

2022-06-23

云数据库Snowflake技术参考手册

云数据库Snowflake技术参考手册

2022-02-10

Apache HBase技术参考手册

Apache HBase技术参考手册

2022-01-26

Python3 多线程网络编程与分布式爬虫技术手册.docx

Python3 多线程网络编程与分布式爬虫技术手册

2022-01-14

AWS SAA-C02专家系统文档.docx

AWS 架构设计选型手册

2021-12-14

GCC技术参考手册.docx

GCC(GNU Compiler Collection,GNU编译器套件)是由GNU开发的编程语言译器。GNU编译器套件包括C、C++、 Objective-C、 Fortran、Java、Ada和Go语言前端,也包括了这些语言的库(如libstdc++,libgcj等。)

2021-12-06

机器学习技术参考手册.docx

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

2021-12-01

Java虚拟机技术手册.docx

Java虚拟机技术手册

2021-11-29

DataProcessingUtility.zip

SQL Server CLR存储过程实现从SSIS包中查询文本数据,包括表名,视图名和字段名等。

2021-10-22

MFC技术参考手册.docx

微软基础类库(英语:Microsoft Foundation Classes,简称MFC)是微软公司提供的一个类库(class libraries),以C++类的形式封装了Windows API,并且包含一个应用程序框架,以减少应用程序开发人员的工作量。其中包含大量Windows句柄封装类和很多Windows的内建控件和组件的封装类。

2021-10-15

Redis技术参考手册.docx

Redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。

2021-09-14

Linux Shell使用手册.docx

Shell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。

2021-09-08

Docker使用手册.docx

Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中,然后发布到任何流行的 Linux或Windows 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。

2021-09-02

Scala 开发教程.docx

Scala 开发教程

2021-08-31

Spark性能优化.docx

Spark性能优化的一些方法。

2021-08-31

企业大数据基础平台搭建和实用开发代码.docx

企业大数据基础平台搭建和实用开发代码

2021-08-29

SQL Server数据库技术手册.docx

SQL Server 是Microsoft 公司推出的关系型数据库管理系统。具有使用方便可伸缩性好与相关软件集成程度高等优点,可跨越从运行Microsoft Windows 98 的膝上型电脑到运行Microsoft Windows 2012 的大型多处理器的服务器等多种平台使用。 Microsoft SQL Server 是一个全面的数据库平台,使用集成的商业智能 (BI)工具提供了企业级的数据管理。Microsoft SQL Server 数据库引擎为关系型数据和结构化数据提供了更安全可靠的存储功能,使您可以构建和管理用于业务的高可用和高性能的数据应用程序。

2021-08-20

Oracle数据库参考手册.docx

Oracle Database,又名Oracle RDBMS,或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小微机环境。它是一种高效率的、可靠性好的、适应高吞吐量的数据库方案。

2021-08-19

Microsoft Azure Function Apps 操作大全.docx

Microsoft Azure Function Apps 原理与概述,开发部署流程。

2021-08-09

Pandas技术参考手册.docx

Pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具,还可以连接数据库完成数据处理的流程。

2021-08-09

MySQL技术参考手册.docx

MySQL是一种开放源代码的关系型数据库管理系统(RDBMS),使用最常用的数据库管理语言--结构化查询语言(SQL)进行数据库管理,本文档有MySQL数据库使用方法和代码示例,以及开发维护方法。

2021-08-06

Flink技术参考手册.docx

Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行。

2021-07-23

Kafka技术参考手册.docx

Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。

2021-07-20

Zookeeper 技术参考手册.docx

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

2021-07-20

Apache Hadoop技术参考手册.docx

关于Hadoop中YARN、MapReduce和HDFS等组件原理详细介绍,环境搭建和Hadoop 3.0新特性和编程方法。

2021-07-05

Apache Storm技术参考手册.docx

Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。

2021-06-23

HBase技术参考手册.docx

HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。

2021-06-22

MySQL、Teradata和PySpark代码互转表和数据转换代码.docx

MySQL、Teradata和PySpark代码互转表,方便在不同的关系数据库和大数据仓库之间转换代码逻辑,另有数据转换操作的PySpark和Hive代码。

2021-05-22

PySpark数据处理技术大全

PySpark 是 Spark 的 Python API,提供了类似于 Spark Core、Spark SQL、Spark Streaming、MLlib 和 GraphX 等组件的接口。这些组件支持分布式计算、实时计算、流式计算、机器学习和图计算等功能‌。PySpark 特别适合处理大规模数据集,并且能够与其他 Python 库如 NumPy 和 Pandas 集成,使得数据处理和分析更加灵活和高效‌。

2025-01-08

R语言的程序技术参考手册

R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。

2024-12-05

Tableau报表开发手册

‌Tableau‌是一款强大的数据可视化和商业智能(BI)工具,旨在帮助用户快速分析、可视化并分享数据。它通过直观的拖放界面,允许用户无需编写代码即可创建动态仪表板和报告,适用于从小型企业到大型企业的各类组织‌。

2024-11-29

Salesforce对象和语言参考手册

Salesforce标准和自定义对象,以及SOQL和SOSL语言的相关技术文档。

2024-05-25

Salesforce SOQL和SOSL参考手册

SOQL(Salesforce Object Query Language,Salesforce对象查询语言) SOSL(Salesforce Object Search Language,Salesforce对象搜索语言)

2024-05-25

Saleforce标准对象参考手册

Saleforce标准对象参考手册

2024-05-25

PyTorch技术参考手册

PyTorch是一个开源的Python机器学习库,基于Torch,用于自然语言处理等应用程序。它既可以看作加入了GPU支持的numpy,同时也可以看成一个拥有自动求导功能的强大深度神经网络。除了Facebook外,PyTorch还被Twitter、CMU和Salesforce等机构采用。

2023-08-01

Node.js技术参考手册

Node.js是一个基于Chrome V8引擎的JavaScript运行环境,用于在服务端上运行JavaScript。它使用了一个事件驱动、非阻塞式I/O模型,使得JavaScript可以与PHP、Python、Perl、Ruby等服务端语言平起平坐的脚本语言。Node.js对一些特殊用例进行优化,提供替代的API,使得V8在非浏览器环境下运行得更好,V8引擎执行Javascript的速度非常快,性能非常好,基于Chrome JavaScript运行时建立的平台, 用于方便地搭建响应速度快、易于扩展的网络应用。

2023-07-13

Apache Airflow技术参考手册

Apache Airflow是一个Airbnb 的 Workflow 开源项目,用于开发、调度和监控面向批处理的工作流。Airflow的可扩展Python框架使您能够构建与几乎任何技术连接的工作流程。Web界面有助于管理工作流的状态。Airflow可通过多种方式进行部署,从笔记本电脑上的单个进程到分布式设置,以支持最大的工作流程。

2022-11-22

Databricks技术参考手册

Databricks是Spark 的商业化公司,致力于提供基于 Spark 的云服务,可用于数据集成,数据管道等任务。

2022-06-23

云数据库Snowflake技术参考手册

云数据库Snowflake技术参考手册

2022-02-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除