编者荐语:
近日,杭州奥零数据科技创始人&CTO 非常荣幸受邀参加 ITPUB 名人堂访谈,巫老师认为,开源等同于商业化,AllData公司团队是学习型组织,积极吸收和处理大量信息,并整合到数据中台商业版。他们享受徘徊于0与1的极客世界,每日耕耘,顶峰相遇。
以下文章来源于ITPUB ,作者王静
▴· 杭州奥零数据科技创始人&CTO 巫林壕 ·
随着数据量激增和数据处理技术飞跃,数据中台产品商业化进程加速,企业对其认知日益增强。数字经济蓬勃发展下,企业数字化转型需求迫切。数据中台转型是企业数字化转型的关键步骤,旨在通过整合、管理、分析和应用数据资源,提升业务决策效率和创新能力。
然而,转型过程中也面临诸多挑战,如数据孤岛、数据质量不高、技术选型复杂、组织架构调整困难等。克服这些挑战需要企业具备强大的数据治理能力、技术创新能力和组织变革能力,以实现数据中台的价值最大化。
近日,ITPUB 有幸采访到 AIIData 的作者巫林壕老师,一起探讨 AIIData 是怎么提供全链条数字化解决方案、有哪些核心功能,以及未来发展等内容。
01
风采展示
问题1:您好,巫老师!很荣幸有机会采访到您,先简单介绍一下您自己!
大家好,我是巫林壕,AllData数据中台开源项目的作者。作为杭州奥零数据科技创始人兼CTO,我带领团队深耕企业级数字化解决方案领域,自主研发的AllData数据中台商业版已成功赋能金融、制造等领域的数字化转型,累计处理数据量级达到数十亿。
在开源领域成就方面,我主导的AllData数据中台开源项目已在全球最大的开源社区Github获得2.6千星标,累积Forks数量高达800次,社区核心贡献者高达40+人次,公众号《大数据商业驱动引擎》的读者将突破2000+人次。作为渠成开源社区首批成员,我始终践行"开放共享创造价值"的理念,持续推动数据技术的民主化进程。
秉承着数据世界的吟游诗人,代码江湖的造桥者,"好的数据中台要让数据像西湖活水般自然流动"的理念,我白天是数据中台架构师,晚上化身开源代码农夫。坚持每周在GitHub上种下新的代码种子,AllData数据中台开源项目已成为较多企业客户数字化转型的落地方案。
02
AllData 核心理念、优势及挑战
问题2:AIIData 的开源项目理念是怎样的?以及 AIIData 从0到1经历了哪些挑战?
AllData大数据产品是可定义数据中台,以数据平台为底座,数据中台为桥梁,机器学习平台为中层框架,大模型应用为上游产品,提供全链路数字化解决方案。
AIIData 的实现也经历了挑战。首先,技术实现上存在难度,需要集成多种技术和框架以提供全面的功能支持。其次,如何保持项目的开源性和商业化需求的平衡也是一个重要挑战。
此外,随着项目的不断发展,如何持续吸引和留住开发者,以及如何管理和维护日益增长的社区也是AIIData面临的重要问题。不过,通过不断努力和克服,AIIData已经取得了显著的成果,并在数据科学领域产生了积极的影响。
问题3:AllData 数据中台有哪些是客户重度使用或者满意度比较高的功能?
能否成为企业数字化转型的“金钥匙“?如何为企业数据资产穿上“防弹衣”?
AllData数据中台拥有多项备受客户青睐的功能,其中数据集成平台、指标体系平台、元数据管理平台、实时开发中心、离线开发平台、数据质量平台、BI可视化平台、数据治理中心以及数据同步平台等功能,都是客户重度使用或满意度较高的功能。
AllData数据中台能够成为企业数字化转型的“金钥匙”,主要得益于其强大的数据处理和分析能力。通过集成多种数据源,实现数据的统一管理和高效利用,为企业的数字化转型提供坚实的数据基础。同时,其丰富的功能模块和灵活可扩展的架构,能够满足企业多样化的需求,助力企业快速构建数据驱动的决策体系。
我们致力于为企业数据资产提供全方位的保护,就像穿上“防弹衣”一样安全可靠。AllData数据中台采取了多重安全保障措施。首先,它提供了多级授权和菜单层控制,实现资源控制和访问权限管理,确保数据的安全访问。此外,通过持续的技术更新和升级,AllData数据中台不断提升自身的安全防护能力,为企业数据资产提供全方位的保护。
问题4:AllData 数据中台支持哪些操作系统和数据库?
是否支持云原生部署?二开成本高不高?
AllData数据中台支持多种操作系统,具有高度的灵活性和可扩展性,能够支持多种操作系统和数据库,包括但不限于Windows和Linux,能够满足不同环境下的运行需求。
此外,AllData数据中台还能与大数据平台如Hadoop、Spark等无缝集成,满足企业对不同类型数据的管理和分析需求。
在操作系统方面,由于AllData数据中台主要基于Java进行开发,并结合了Vue等技术栈构建用户界面,因此它能够在支持Java应用的操作系统上稳定运行。
在数据库方面,它支持关系型数据库如MySQL、PostgreSQL,以及非关系型数据库如MongoDB等,确保与各类数据源的兼容。
AllData数据中台目前尚未支持云原生部署。目前客户仍需定制部署到云原生环境,后续我们架构师团队将会支持这一重要特性。
AllData数据中台的二次开发成本相对较低。这主要得益于其灵活的底层架构和可插拔的后端设计。这种设计使得系统能够根据不同的业务需求进行定制和扩展,从而降低了二次开发的难度和成本。此外,AllData数据中台还集成了多个开源技术和框架,提供了丰富的功能模块和API接口,进一步降低了二次开发的门槛。
问题5:AllData 数据中台在数据分析和可视化方面有哪些独特优势?
AllData数据中台在数据分析和可视化方面展现出了令人瞩目的独特优势。它集成了强大的数据分析引擎,不仅支持大规模数据集的快速处理,还提供了丰富的数据分析工具,如统计分析、机器学习模型等,让用户能够深入挖掘数据背后的故事,精准洞察业务趋势和潜在机会。
在可视化层面,AllData数据中台配备了直观易用的拖拽式报表设计工具,用户只需简单操作,即可快速生成各类图表和仪表盘,如折线图、柱状图、饼图等,实时展现数据动态,让数据一目了然。同时,系统还支持自定义报表和仪表盘,满足企业多样化的数据展示需求,让数据更具说服力和感染力。
此外,AllData数据中台系统高度灵活,能够无缝集成多种数据源,确保数据的完整性和一致性,为数据分析和可视化提供可靠保障。更重要的是,系统具备高度的可扩展性和定制性,企业可以根据自身业务需求,灵活调整功能模块,实现数据价值的最大化利用。
总之,AllData数据中台凭借其卓越的数据分析和可视化能力,成为企业提升数据洞察力和业务决策效率的重要利器。
03
AllData 开源版 VS 商业版
问题6:AllData 数据中台的开源版本与商业版本的核心区别有哪些?
开源版本与商业版本的核心区别在于:
开源项目为V1.0旧版架构,使用Vue2 + SpringCloud前后端分离架构;商业版项目为V2.0 架构,使用Wujie微前端架构+后端可插拔架构。这套架构是全新商业版的核心优势,集成开源组件能力十分优秀,可以扩展支持到80+大数据开源组件。
开源版与商业版是独立维护的项目, 开源版为alldata, 由开源团队维护;商业版为sciencemoat, 由公司团队维护。开源项目alldata可以用于公司内部调研用途,如需商业使用,需要采购商业版,开源项目使用GPL协议;商业版项目sciencemoat可以用于公司内部商业使用,外部商业使用,无太多限制。商业版功能更多,稳定性高。
04
AllData 应用场景
问题7:AllData 数据中台目前有多少企业客户在生产环境使用?能否分享一些 AllData 数据中台在不同行业(如金融证券、制造行业、政府单位等) 的成功应用案例?案例中,AllData 数据中台主要解决了哪些业务问题?带来了哪些实际效益?
AllData数据中台自推出以来,凭借其强大的功能和高效的数据处理能力,已经吸引了150多家企业客户投入使用,这一数字还在持续增长中。尤为值得一提的是,我们曾为一级政府单位提供过专业服务,助力其管理高达数10亿级别的海量数据,充分验证了AllData数据中台在处理大规模数据方面的能力。
AllData数据中台集成数据质量管理、元数据管理、数据集成、数据资产管理、数据服务、数据比对、BI可视化平台、指标体系、实时开发、离线开发、系统管理等多功能于一体,构建了一个全方位、一体化的数据管理生态体系。
▴数据集成功能展示
▴实时开发功能展示
▴离线开发功能展示
▴指标体系功能展示
在服务器资源使用方面。我们提供了灵活的部署方案。常规部署方案需要6台8核心16G的服务器,而为了满足更大规模的数据处理需求,客户还可以选择部署6台64核心512G 60T的单机物理机。这样的配置,既保证了数据处理的高效性,又为企业提供了足够的扩展空间。
通过AllData数据中台的数据集成平台,我们实现了数据同步的显著提速。MySql千万级数据可在短短几分钟内(1-60分钟)同步至Doris,Oracle数十亿级数据的小时级(1-5小时)同步至Doris,Hive亿级数据亦能在小时级(1-10小时)内完成同步。这一突破性进展极大地提升了数据的实时性和可用性。
此外,AllData数据中台的数据开发中心也为企业提供了强大的数据开发能力。生产验证实时开发、离线开发、数据服务、指标体系、BI平台等功能都已经稳定交付使用,为企业提供了全方位的数据支持和服务。
05
AllData 与其他开源对比及未来规划
问题8:AllData 数据中台与其他同类型开源相比,有哪些优势?在未来的技术迭代和功能扩展上,有哪些规划?
AllData数据中台相较于其他同类型开源产品,其优势在于底层是基于Wujie+可插拔的后端架构、以及商业化团队历经6年对国内外大数据组件的掌握,以及对国内外28家数据中台厂商的竞品公司分析调研。我们旨在提供全链路数字化解决方案,目前正在集成机器学习平台与大模型应用开发平台,且底层架构灵活可扩展。
在未来技术迭代和功能扩展上,AllData计划持续优化算法和数据处理流程,加强数据安全保障,并积极寻找新的市场机会和业务增长点,以满足不同行业的多样化需求,提供更加个性化的推荐服务。
问题9:针对大数据和 AI 大模型技术的发展趋势,AllData 数据中台将如何与之融合?
AllData数据中台将会积极与大数据和AI大模型技术融合,以提供更强大的功能和服务。
首先,AllData将充分利用大数据技术,优化数据处理和分析流程,提高数据处理的效率和准确性。通过集成多种数据源和先进技术,实现数据的统一管理和高效利用。
其次,AllData将深度融合AI大模型技术,提升平台的智能化水平。借助AI算法模型,实现数据和AI开发的高效互通,为用户提供更精准的数据分析和预测服务。
未来,AllData数据中台将继续加大技术研发投入,紧跟大数据和AI技术的发展步伐,不断优化和升级平台功能,以满足用户日益增长的数据分析和智能化需求。
06
开源的可持续性问题
问题10:如何有效管理项目的资金和资源,确保项目的可持续发展?以及如何有效应对和处理项目中的安全漏洞和威胁?如何平衡项目的开源性和商业化需求?
为确保项目的可持续发展,我们团队会制定详细预算并严格执行,优化成本结构,确保资源高效利用。同时,建立风险预警机制,灵活调整资源配置,以应对突发情况,保障项目可持续发展。
面对安全漏洞和威胁,会建立健全的安全管理体系,定期进行安全审计和漏洞扫描,及时修复问题。同时也会加强团队安全意识培训,提高应对能力,确保项目安全稳定运行。
平衡项目开源性和商业化需求,关键在于明确项目定位,既保持开源社区的活力,又探索合理的商业模式。通过提供增值服务、企业解决方案等方式,实现商业化收益,同时尊重并保护开源社区的贡献和利益,促进项目健康发展。