存档日期:2019年5月14日 | 首次发布:2011年6月16日
随着增长市场中数据质量的重要性日益提高,迫切需要清除脏的,非结构化的数据。 但是,此练习中的挑战之一是,各国可能拥有多种语言,这对有效处理语言数据提出了挑战。 例如,在印度,每个州的官方语言是不同的,并且可用英语和本地语言提供数据,这加剧了数据一致性问题。 本文介绍了如何在音译过程中实现一致性,以及如何使用IBM®InfoSphere®Information ServerDataStage®来准备语言数据作为摘录的一部分,然后转换并装入(ETL)场景。
此内容不再被更新或维护。 全文以PDF格式“按原样”提供。 随着技术的飞速发展,某些内容,步骤或插图可能已更改。
翻译自: https://www.ibm.com/developerworks/data/library/techarticle/dm-1106etljob/index.html
本文探讨了在多语言环境中处理数据一致性的挑战,特别是在印度等国家,每个州都有自己的官方语言。文章介绍了通过音译实现一致性的方法,以及如何使用IBM InfoSphere InformationServer DataStage进行数据准备,作为ETL过程的一部分。
5552

被折叠的 条评论
为什么被折叠?



