- 博客(1375)
- 资源 (35)
- 收藏
- 关注
原创 数据仓库和数据集市之ODS、CDM、ADS、DWD、DWS
数据仓库分层架构解析 本文系统介绍了数据仓库的分层架构设计,主要包括: 基础数据层(ODS):最接近数据源的层级,进行ETL处理后保留原始数据特征,负责数据清洗、去重等预处理工作 数据仓库层(DW): DWD(明细层):保持与ODS相同粒度,进行数据质量处理 DWM(中间层):轻度汇总,提高指标复用性 DWS(服务层):主题宽表,支持业务查询和分析 应用层(APP):面向业务应用的最终数据产品 维表层(DIM):包含高低基数维度数据 分层设计通过"空间换时间"提升效率,实现数据解耦、口径
2025-11-09 01:22:11
1136
原创 Apache Doris 与 湖仓一体
Apache Doris是一款基于MPP架构的高性能实时分析型数据库,具有亚秒级查询响应能力,支持高并发点查询与复杂分析场景。其发展始于百度Palo项目,2018年捐赠给Apache基金会,2022年成为顶级项目。Doris采用存算一体架构,包含FE(前端)和BE(后端)进程,支持高可用、高兼容MySQL协议,并提供实时数仓、湖仓一体等解决方案。核心特性包括列式存储、多种索引结构、向量化引擎及自适应查询优化。典型应用场景涵盖报表分析、即席查询、日志检索等,已被京东、小米等企业采用,支持与Hudi、Icebe
2025-10-25 16:56:44
982
原创 Agentic RL
本文概述了AI Agent的关键概念与最新进展。AI Agent是具备推理、规划、记忆和自主决策能力的软件系统,核心功能包括工具调用、记忆存储和多步规划。文章重点介绍了ReTool框架如何训练LLM解决数学问题,并分析了同步执行的效率瓶颈。同时提出了Agent Loop架构,支持多工具并行调用和异步推理优化。最新方案verl已支持训练超大规模MoE模型(如DeepSeek-V3-671B),通过参数分片和混合并行策略实现高效训练。未来方向包括模块化引擎设计、异步训练管道开发,以及向代码、多模态等更复杂的代理
2025-10-24 00:59:20
791
原创 Technical Remediation — Massa incidents on October 4–5, 2025
Executive Summary On October 4-5, Massa's network experienced disruptions due to a rare, looping-heavy smart contract execution pattern that caused severe slot delays (~60 seconds vs. target ≤300ms). This triggered a cascading failure: Execution held a sta
2025-10-23 14:11:20
815
原创 verl: an Open-SourceLarge-Scale LLM RL Framework forAgentic Tasks
RL与SFT对比:SFT基于标注数据训练单个模型,而RL通过多模型奖励优化。RL在LLM领域日益重要,涉及人类对齐、数学推理、多模态生成和智能体应用。RL数据流复杂,包含多模型、多阶段和多任务,且面临数据依赖和资源限制的挑战。Verl开源项目(GitHub 10k+星)提供高效RL解决方案,支持多种算法扩展、3D混合引擎优化、模块化API集成和灵活设备映射,并兼容超大规模模型(如671B参数)。其混合控制器架构结合集中式与分布式控制优势,实现高效RL训练与推理。
2025-10-20 00:45:26
1003
转载 LLM智能体幻觉综述!梳理5类幻觉、18大诱因与10种缓解方案
【摘要】大型语言模型驱动的智能体(LLM-based Agent)在应用落地过程中面临"复合幻觉"问题,其表现为跨模块、长链条的系统性偏差,包括推理、执行、感知、记忆和通信五大类幻觉。最新发布的综述《LLM-based Agents Suffer from Hallucinations》首次系统梳理了该问题,提出分类框架并剖析18种触发原因,总结10种缓解策略。相较于传统语言模型幻觉,智能体幻觉具有类型复杂、传播链长、后果严重三大特性,可能引发实际安全风险。研究团队开源的300+论文库为
2025-10-11 00:26:16
137
原创 vLLM: Easy, Fast, and CheapLLM Serving for Everyone
Build the fastest and easiest-to-use open-source LLM inference & serving engine
2025-10-10 00:35:20
492
原创 睡得晚和睡得少哪个伤害大?
警惕脑干出血!这种致命疾病死亡率高达80%,多由熬夜、高血压等不良生活习惯引发。专家提醒,年轻人要规律作息,晚上11点前入睡,控制血压,远离烟酒。熬夜后可通过合理补觉补救,但突发头痛呕吐等症状需立即就医。健康生活方式是预防关键!
2025-10-09 12:33:08
270
转载 从数据孤岛到3000节点15PB存储的 Doris + Iceberg 湖仓一体实践
天翼云基于Apache Doris和Iceberg构建超大规模湖仓一体平台,成功解决数据孤岛问题。该平台已落地20多个项目,管理超15PB数据,在实时报表、湖仓融合、日志分析、物联网和信创领域取得突破性成果:查询响应缩短至秒级,写入吞吐提升5倍,并发处理达15000QPS,并通过国产化技术优化实现30%性能提升。这一实践为企业数字化转型提供了高效、安全的数据处理新范式。
2025-10-09 00:20:35
98
原创 Spring 官宣正式弃用 RestTemplate ,启用RestClient,保留 WebClient
Spring团队宣布将于7.0版本开始弃用RestTemplate,这款15年历史的HTTP客户端将逐步退出历史舞台。RestTemplate存在扩展性差、异步支持不足等局限,将被现代化的RestClient取代。RestClient提供链式调用、API版本控制等新特性,同时支持平滑迁移现有项目。未来Spring将形成RestClient(同步)和WebClient(响应式)的双轨格局,新项目建议直接使用新方案。
2025-10-08 23:58:57
1014
原创 JDK8平滑升级到JDK17不完全指南(Springboot2升级到Springboot3)
本文摘要: 该文档详细记录了Java项目从Spring Boot 2.x升级到3.x的关键步骤,主要包括:1)核心框架组件升级(Spring Boot 3.2.4、Spring Cloud 2023.x);2)公共组件版本升级(MyBatis 3.5.x、OkHttp 4.12.x等);3)Servlet API从javax迁移到jakarta;4)OAuth2安全认证改造,使用Spring Authorization Server替代已废弃的Spring Security OAuth2;5)处理被移除的类
2025-10-02 10:17:38
1189
原创 OpenSeek:Open-Source Driven Next Al Models
Millions of hands, one great AI ship. Join OpenSeek
2025-09-29 00:48:14
635
原创 MySQL 迁移至 Doris 最佳实践方案
本文系统介绍了四种MySQL迁移至Doris的实践方案:1)JDBC Catalog方案实现跨库联邦查询;2)Binlog方案支持增量数据实时同步;3)Flink CDC方案满足高实时性流处理需求;4)Datax方案适用于全量/批量迁移。各方案从环境要求、实施步骤到注意事项均有详细说明,并提供了对比选型建议。最佳实践强调应结合全量初始化与增量同步,做好数据类型兼容测试,建立完善监控体系,确保数据平稳迁移与系统性能提升。
2025-09-24 14:37:17
1059
原创 多租户的 4 种常用方案
多租户系统4种常用方案对比:1. 字段隔离方案(低成本高风险):通过租户ID字段实现逻辑隔离,易出现数据泄露风险,适合初期MVP或内部系统;2. Schema隔离方案(中等安全):每个租户独立Schema,适合50个以下租户的中等规模系统;3. 独立数据库(高安全高成本):完全物理隔离,适合金融医疗等强合规行业;4. 混合架构(灵活平衡):按租户等级采用不同方案,实现资源与成本的平衡。选择方案需权衡安全、成本与业务需求,没有绝对最优解。
2025-09-24 14:35:22
781
原创 从GOSIM HANGZHOU 2025 看AI 新图景
GOSIM杭州2025大会汇聚1500+开发者与200+海内外专家,聚焦AI与开源技术前沿。大会设五大分论坛探讨AI模型、具身智能等热点,并举办黑客松、Workshop等互动活动。RustChinaConf同期举办,庆祝Rust十周年。智源研究院发布具身智能能力基座,李建忠提出AI产业十大命题。华为、NVIDIA等企业分享技术实践,展示开源生态活力。活动呈现国际化视野与跨界创新,为AI发展注入新动力,期待明年再聚。
2025-09-21 00:23:07
1185
原创 智能体落地与大模型能力关系论
AI模型落地应用仍面临PR与现实的差距,需克服模型缺陷并处理好模型与应用的关系。RAG适合特定知识密集型场景,具有强解释性和低幻觉输出;SFT则提升基础能力,适配广泛场景且交互效率高。数据质量直接影响三阶段模型效果:预训练决定基础能力,持续训练优化性能,AI数据挖掘支撑应用落地。数据处理精细度对问答、检索等场景的准确性起关键作用。
2025-09-20 23:32:16
487
原创 Mcp 治理的第一步:MCP Registry
MCPRegistry作为连接AI模型服务器创建者与消费者的关键枢纽,其技术架构采用轻量级元数据服务设计,包含REST API、数据库、CLI工具和CDN层四大核心组件,通过Kubernetes实现可靠部署。该系统支持服务器发布、消费者发现、DNS验证和管理员认证四大核心业务流程,构建了官方注册中心与子注册中心协同的生态体系。未来将在保持轻量级定位的前提下持续演进,为MCP生态系统提供高效连接能力。
2025-09-19 07:44:06
724
原创 什么是 PaaS
PaaS(平台即服务)是一种云计算形式,由第三方提供应用开发平台,使开发者能专注于编码而无需维护底层基础架构。它与IaaS(基础设施即服务)和SaaS(软件即服务)共同构成云计算服务模式。PaaS优势包括降低成本、缩短开发周期、提升开发运维效率和安全保障。选择PaaS需考虑功能覆盖、语言框架支持、服务水平协议和扩展性。平台生态系统将技术、人员与流程整合,支持企业数字化转型。PaaS适用于云原生开发,可基于Kubernetes管理容器化应用。
2025-09-07 10:28:51
1001
原创 SagooIoT 产品国产化
SagooIoT平台支持多种国产化软硬件环境。操作系统包括UOS、红旗Linux、麒麟V10等;服务器支持华为泰山、海光等兼容Linux的型号;数据库兼容TiDB、OceanBase等支持MySQL/PostgreSQL协议的产品;中间件支持EMQX、TDEngine等。平台理论上兼容所有符合Linux系统及MySQL/PostgreSQL协议标准的国产化组件,用户可根据需求灵活替换。
2025-08-26 00:20:02
368
原创 企业架构是什么?解读
企业数字化转型的关键在于"数字化规划"阶段,该阶段通过企业架构方法论(如TOGAF10)衔接战略与执行。企业架构作为模型化的管理体系,包含战略、组织、流程等9大要素,以系统化方式分析企业现状与目标差距。这一方法论起源于1990年代,由Zachman框架发展至TOGAF10等现代标准,成为指导企业数字化转型的核心工具。理解企业架构的内容、应用及发展趋势,对确保转型成功至关重要。
2025-08-19 23:22:55
979
原创 企业为什么要做数字化?解读
企业数字化是应对VUCA时代(易变、不确定、复杂、模糊)内外挑战的必然选择。外部面临消费者需求快速变化、竞争白热化和跨界颠覆,内部存在组织协同困难、管理缺失和信息孤岛等问题。数字化通过构建企业级平台,实现数据统一和流程优化,助力企业获得"韧性、敏捷、创新"的新质生产力特征。其价值体现在三个方面:支持持续创新和价值驱动、增强风险应对能力、提升协同运营效率。华为案例证明,数字化转型本质是战略驱动的系统性变革,需要从顶层设计入手,通过数字化平台重构企业运营体系,最终实现战略目标。在数字化时代,
2025-08-18 00:19:47
834
原创 测试工程师应当具备的能力
测试工程师需要具备多方面能力:技术方面需掌握各类测试理论方法、工具和编程脚本编写,熟悉开发测试全流程;核心素养包括敏锐的分析能力、质疑精神、质量意识和细节把控;软技能方面要具备良好沟通协作、时间管理及项目管理能力;职业发展还需持续学习新技术,培养创新思维和管理能力。优秀的测试工程师应兼具技术深度与多维能力,从执行者成长为质量保障的推动者。
2025-08-15 13:45:08
566
2
原创 LDAP目录服务器太多不知道怎么选
市面上可选的 LDAP 目录服务器数量众多,宣传也各有特色,让人眼花缭乱,在这种情况下要想冷静思考并选择合适的方案并不容易。但是对企业来说,正确选择 LDAP 目录服务器又是至关重要的,只是现在除了传统的本地服务器之外,管理员又多了一种新的选项——基于云的 LDAP 目录服务器。它基于 SaaS,可以很好地替代传统的本地目录服务器。因此,企业在选择 LDAP 方案时,首先就需要确定是在本地还是在云上部署。归根到底,选择哪种 LDAP 服务器方案还是取决于企业的核心需求。
2025-08-03 21:05:31
647
原创 完善的SSO平台应具备的能力
摘要:宁盾单点登录解决方案通过统一账号体系实现快速接入各类应用,支持SAML2/OIDC等标准协议及自研EasySSO协议,最快1天完成部署。提供可定制的登录门户,兼容企业现有系统界面,保持用户习惯。采用集中认证机制,结合多因素认证提升安全性,实现一次登录即可访问所有授权应用。该方案适用于内外网用户统一认证,简化IT管理流程,提升办公效率,支持浏览器无感知切换,覆盖主流企业应用场景。(149字)
2025-08-03 14:59:34
307
原创 AD方案(OpenLDAP或微软AD)适配信创存在的不足以及可能优化方案
微软AD存在多重安全与管理痛点:协议漏洞(SMB/Kerberos)、高危端口暴露、单点登录缺乏合规检测、弱密码库缺失、数据同步延迟等问题突出。权限管理粗放导致敏感信息泄露,运维依赖人工操作效率低下,分布式日志难以集中审计。国产化替代面临技术壁垒(Windows内核依赖/私有协议)、法律风险(专利保护)和安全隐患(继承漏洞)。建议采取差异化创新路径:重构架构(PKI鉴权/国密算法)、优化管理(自助服务/集中配置)、增强安全(精细化权限/弱密码库),实现兼容性、安全性与本土化需求的平衡。
2025-08-03 14:45:15
3438
原创 LDAP身份验证前世今生
LDAP 自1993年首次推出以来一直非常成功。实际上,LDAP.v3 在1997年成为目录服务的互联网标准。LDAP 还启发了 OpenLDAP 的创建,这是一个领先的开源目录服务平台。
2025-08-03 14:19:25
452
原创 信创背景下看国产身份域控方案(宁盾为例)
具备目录服务、认证网关、计算机加域管理、证书机构、用户自服务等能力,可将企业现有身份源整合、统一管理,基于标准LDAP服务为下游应用、网络、设备、计算机等IT资产提供统一认证和管理
2025-08-03 12:28:53
919
原创 多重身份验证 (MFA)
多因素身份验证(MFA)是一种安全机制,要求用户提供两种以上验证因素才能访问系统。MFA通过整合密码、验证码、生物识别等多种验证方式,显著提升安全性。其重要性在于有效防范数据泄露和网络攻击,即使密码泄露也能阻止未授权访问。MFA支持短信验证、身份验证器应用、硬件密钥等多种实现方式,帮助组织满足合规要求,降低安全风险。在远程办公和云服务普及的背景下,MFA已成为保护敏感信息的必要措施,能增强客户信任并减少潜在损失。
2025-07-31 21:05:49
1251
原创 SSO面临的问题
摘要:SSO简化了SaaS凭证管理,但存在单点故障风险,需配合MFA等安全措施。实现SSO需选择身份提供商,可能增加成本。UserLock提供本地化SSO解决方案,基于ActiveDirectory实现,内置MFA和访问控制,降低对外部服务依赖,简化集成过程。(149字)
2025-07-31 18:51:46
379
原创 SAML、OpenID、OAuth、LDAP:解码 SSO 协议
摘要:本文深入探讨了单点登录(SSO)协议中的SAML技术及其在企业环境中的应用。SAML作为基于XML的开放标准,特别适合企业级Web应用SSO,能与ActiveDirectory无缝集成,提供安全便捷的身份验证。文章对比了SAML与OpenID、OAuth、LDAP等协议的特性:SAML适用于企业跨应用SSO;OpenID面向消费者应用;OAuth专注于授权而非认证;LDAP则用于集中式用户目录管理。通过实际案例说明,阐明了如何根据组织需求选择合适的协议,并详细解析了SAML与AD的集成机制,展示了其在
2025-07-31 18:26:54
1125
翻译 利用 Spring AI 实现快速工程技术(Prompt Engineering Techniques )的最佳实践
这篇文章详细介绍了如何使用SpringAI实现Prompt Engineering技术。主要内容包括: 配置部分:讲解如何选择和配置大型语言模型(LLM),包括温度、输出长度、采样控制等参数设置,以及结构化响应格式的实现。 核心Prompt Engineering技术: 零次提示和少量提示方法 系统、情境和角色提示 思路链(CoT)和自洽性技术 思想之树(ToT)和自动提示工程 代码相关提示技术 实现细节:提供了每种技术的具体Java代码示例,展示如何使用SpringAI的ChatClient API将这些
2025-07-09 18:31:08
259
原创 Text2SQL主流实现方案
本文介绍了Text-to-SQL任务的三种主流技术方案。基于Prompt Engineering的方案通过精心设计的提示引导大语言模型生成SQL,包括零样本提示、少样本提示、链式思考和自我纠正等方法。基于模型微调的方案通过在特定数据集上微调预训练模型(如T5)来优化性能,重点介绍了MIGA两阶段多任务预训练框架。基于RAG的方案则结合外部知识增强模型能力,包括模式检索、示例检索等技术。文章指出实际应用中建议采用混合方案,充分发挥各种技术的优势。文中还提供了T5和MIGA模型的相关技术细节及参考文献。
2025-07-01 16:06:44
963
原创 AI内容创作智能体开发全流程
本文介绍了内容创作流水线的实现方案,包含三个核心工具:文章生成(writeArticle)、摘要提取(extractSummary)和文本转音频(convertToAudio)。系统采用SpringAI框架集成工具链,通过CacheTool共享中间结果。文章详细展示了各工具的实现代码,包括使用大模型生成文章、150字内的结构化摘要提取,以及音频转换接口。此外,还介绍了流式输出实现方案(SSE技术)和基于Playwright的自动化测试框架,包括手机端页面抓取和内容分析功能。整个系统采用模块化设计,支持工具链
2025-06-30 00:47:53
343
原创 org.apache.maven.lifecycle.LifecycleExecutionException 错误原因和解决方案
org.apache.maven.lifecycle.LifecycleExecutionException: Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.0:compile (default-compile) on project ai-browser-biz: Compilation failure
2025-06-27 12:18:22
836
原创 实现AI Agent一些常见问题
AI智能代理(AIAgent)已成为数字化转型关键工具,广泛应用于金融、医疗、电商等领域。本文系统解答了100个核心问题,涵盖智能代理的定义、架构、开发流程和行业应用。智能代理通过LLM模型、工具层、记忆模块和协调器实现自主决策,其关键技术包括RAG增强生成、多代理协同和反思优化。企业应用面临集成复杂性、安全合规等挑战,需通过AgentOps实现全生命周期管理。未来发展趋势包括轻量化边缘部署、A2A通信协议和自我改进系统,智能代理将逐步演变为具备多模态能力的数字协作伙伴。开发人员需掌握提示工程、工具集成等核
2025-06-25 13:58:56
812
原创 o1模型训练核心原理揭秘
OpenAI首席科学家在MIT演讲中提出AI训练新范式:激励优于直接教学。他认为当前LLMs采用的"下一个词预测"方法对培养通用技能激励不足,应转向设计可扩展的激励机制。随着算力成本指数级下降,研究人员需开发能激发AI推理等综合能力的新方法,并强调"学会遗忘"等新视角对涌现能力的重要性。这一观点为AGI发展路径提供了新思路。
2025-06-21 17:23:25
288
原创 图文并茂说Transformer
摘要:GPT是一种基于Transformer架构的生成式预训练语言模型,其核心原理包括四个关键阶段:Embedding将文本转化为语义向量;Attention机制建立向量间的语义关联;MLPs通过非线性变换提取深层特征;最后通过Unembedding输出概率分布。Transformer作为基础架构,通过自注意力机制和多层感知机处理文本序列,而预训练阶段使模型掌握了语言的统计规律。该技术在多模态数据处理中也展现出强大潜力,能够统一处理图像、音频等不同类型数据。
2025-06-21 17:20:32
1223
原创 大文件高并发下载解决方案之Http Range 和 206 Partial Content 分段下载
HTTP Range请求允许分段下载文件,通过"Range:bytes=start-end"格式指定字节范围。服务器响应包含关键头部:Content-Range(响应范围/总大小)、Content-Type(资源类型)、Content-Length(响应数据长度)、Last-Modified(修改时间)和ETag(资源标识)。多线程下载时,先通过HEAD请求获取文件总大小,再分配不同线程下载不同范围的数据块(如0-1551、1552-end),最后合并文件。注意HTTP头部字段名不区分大小写,且需关注
2025-06-17 19:59:50
613
2023年世界无线电通信大会与地球观测
2025-07-13
【无线电管理领域】中华人民共和国无线电频率划分规定
2025-07-13
不断发展的卫星通信 国际电联在美好新世界中的作用
2025-07-13
【无线电管理】基于GWJ009-2016标准的无线电频率数据库结构设计:规范频率划分、规划、分配与指配的数据管理
2025-07-13
【卫星通信领域】空间电台和卫星通信网数据库数据服务接口规范:实现卫星及通信网信息查询与数据共享系统设计
2025-07-13
基于区块链的去中心化网络Mira用于无信任的人工智能输出验证
2025-03-24
Natural Language Processing with Deep Learning CS224N/Ling284
2024-09-09
RFC9220 - HTTP Datagrams and the Capsule Protocol
2024-08-02
RFC9297 - Bootstrapping WebSockets with HTTP/3
2024-08-02
RFC9114 - HTTP/3
2024-08-02
RFC9000 - QUIC: A UDP-Based Multiplexed and Secure Transport
2024-08-02
RFC8446 -The Transport Layer Security (TLS) Protocol Version 1.3
2024-08-02
Web3+Decentralized+去中心化+存储
2024-04-30
Chainbase+Web3+APi+Data warehouse
2024-04-30
【密码学领域】基于MPC-in-the-Head的数字签名构造原理与优化:零知识证明在后量子签名方案中的应用 Constructions for digital signature Part I:
2025-07-15
【计算机科学与密码学】MPC-in-the-head零知识协议的形式化安全分析:多方安全计算在零知识证明中的应用研究
2025-07-15
密码学基于MPC-in-the-Head和盲传的零知识系统设计:构建高效安全的后量子零知识协议
2025-07-15
这篇文章提出了一种名为Diet的新框架,用于构建非交互式零知识论证系统(NIZKAoK),特别是在格基密码学中的应用 以下是文章的主要内容和贡献:
2025-07-15
Remote Desktop Manager for mac + Remote Desktop Manager for win
2025-07-15
【音视频处理】mp4转m3u8秒开技术方案分析:不同分辨率与码率对文件大小及加载速度的影响研究文档的主要内容
2025-07-13
大规模低轨卫星网络移动性管理方案总结
2025-07-13
【无线电管理】工信部无2016379号-9无线电频率占用度测量要求及方法:规范各级无线电监测站频率占用度测量
2025-07-13
### 星链计划卫星网络资料申报情况分析 摘要 本文
2025-07-13
### 【航空航天领域】我国空间互联网星座系统发展战略研究:构建全球覆盖与自主可控的信息网络体系
2025-07-13
【低轨卫星互联网】低轨卫星互联网产业发展现状与趋势分析:国内外星座方案竞争态势研究
2025-07-13
【区块链技术】Aleph Zero分布式账本技术白皮书:隐私增强型公共区块链的企业级应用与创新
2025-07-13
【视频编码技术】面向监控应用的AVS视频编码标准伸展档次关键技术及性能优势分析
2025-07-13
【卫星通信领域】国际频率信息通报(空间业务)卫星网络资料意见规范:确保频率轨道资源合理使用
2025-07-13
中兴通讯技术 专题:低轨卫星通信技术与应用
2025-07-13
卫星通信非静止轨道通信星座同频干扰概率分析及系统可用性评估:数学模型与仿真方法设计了非静止
2025-07-13
### 通信工程数字信号调制参数测量与调制类型识别方法:信号分析及手动提取实现指南
2025-07-13
【自然语言处理】基于多任务生成框架MIGA的对话式文本到SQL转换系统设计与实现 MIGA: A Unifed Multi-Task Generation Framework for Conversa
2025-07-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅