| |
| 您的位置: 新华网 | 首页 >> 传媒在线 >> 传媒视点 |
"新华08"数据仓库系统技术环节及建设内容 | |
| 2007年10月11日 14:29:10 来源:《中国传媒科技》 | |
|
新华08数据仓库系统的技术架构由若干模块组成,通过每个模块的介绍,我们可以了解到"新华08"的数据仓库系统如何有效提供数据服务。 数据源 数据仓库的数据来源复杂而多样,以金融数据为例,目前数据来源有网络传输、文件传递、数据库表、网页等形式,由于数据最终要整合成一体,所以数据源接入时就需要对数据源进行规范化,并对其进行转换、去重、一致化、标准化等处理。"新华08"数据仓库系统对每种数据源采用数据探查(Data profiling)的技术进行源数据分析,提出规范化要求,并开始建设集中式的数据源接收与分发中心,在为实时行情提供数据的同时,将数据源按规范存储供整合入库使用。 数据源的分析和处理保证了进入数据仓库的数据的质量,并可以通过数据探查获取质量评估,量化数据质量,从根本上对数据源进行把关和筛选。 数据集成 该部分是整个数据仓库系统的核心,它涉及到数据建模、ETL、数据质量管理、元数据管理、数据编码与数据字典等技术。 数据仓库中通常存储海量的历史数据,向用户提供快速准确的数据查询与计算分析功能,所以需对数据存储的结构进行合理的建模,以支持高效的查询分析;由于历史数据往往横跨多个年份,数据的统计口径、含义、属性等通常会发生变化,为了使数据可以在时间序列上进行比较分析,需要对数据结构进行特殊设计。我们采用多维建模技术,灵活运用星型、雪花型、星座型、雪暴型等结构对数据进行建模设计,以满足上述需求。 数据源的结构和数据在数据仓库中存储的结构不同,并且针对不同应用,数据需要按照不同结构进行组织,这时需要ETL技术对数据进行抽取、转换、加载,它贯穿于数据仓库整个数据加工过程,驱动异构源数据的整合、处理及流动;我们采用面向SOA架构的ETL工程开发技术,对于复杂多变的数据源和应用服务,ETL流程也要不断修改变化,该技术可以尽可能简化ETL工程维护量,并通过直接访问数据库接口进行数据传输的技术来确保ETL执行的效率,从而达到每日抽取转换加载上亿条数据的能力,保证数据仓库更新的及时性。 数据必须准确才能保证分析结果可靠正确,所以质量管理的重要性不容忽视,主要包括数据质量评估、数据清洗、数据质量监控,发现和处理源数据中存在的数据缺失、不一致、歧义、重复等问题以及保证数据加工过程中不会产生错误,对数据质量的管理和控制保证"新华08"的数据仓库系统能够快速准确的发现并修正数据错误。 我们采用元数据来记录了数据的加工处理的过程和数据仓库数据内容与数据结构,通过元数据管理技术,我们可以方便的进行数据血缘分析,追溯影响数据分析结果的因素所在,还可以对整个数据仓库系统进行调度和监控,并且有效辅助数据质量的管理和控制。 数据编码技术为数据与数据、数据与新闻资讯建立关联提供了支持,数据仓库中集成了各个金融市场和宏观微观经济数据,不同领域的数据可以通过共同数据属性关联起来,如股票和进出口数据可以通过企业属性和企业所属行业属性关联起来,这就需要通过数据编码技术来对这些属性进行编码和对接,并反映数据仓库中数据的历史变化。在此基础上整理的数据字典有助于用户快速有效的理解、查询与浏览数据。 数据存储技术 数据仓库存储的数据复杂且数量庞大,要满足的数据服务需求也是多样的,如单个明细数据的准确定位查询,一次性查询大量数据进行计算分析,数据的定时推送等等,为了保证不同数据服务的效率,数据要进行多模块多层次的存储。通过数据集市技术将不同用户群应用所需的数据分别抽取加工存储,分散访问压力,提高查询分析的速度;通过建立ODS区,来保证明细数据查询的及时性和效率;通过OLAP分析中数据立方体的压缩存储技术,可将数据进行预计算分析,将结果存储下来,保证数据分析的灵活性和效率。 OLAP分析技术 联机分析(OLAP)是一种数据动态分析模型,它允许用户通过一种多维结构来访问数据仓库中经过聚合和组织整理的数据。OLAP最基本的概念其实只有三个:多维分析、数据钻取、立方体运算。 首先,从动态的多维角度分析数据即多维分析,我们通常分析问题时,会从多个角度或者几个角度的组合来进行分析。OLAP分析最基本的概念:从多个观察角度的灵活组合来观察数据,从而发现数据内在规律。OLAP将数据分为两种特征,一种为度量数据,用来说明事实,比如进出口金额、销售量等;还有一种为维度数据,用来说明事实的特征和属性,比如进出口商品、产销国等。前者为观察的对象,后者为观察的视角。 其次、对数据进行钻取,以获得更精确的信息,实现从宏观到微观的分析。比如海关进出口数据中产销国分为大洲、国家两个层次,洲包含国家,在分析各大洲产品进出口情况时希望更进一步分析各国家进出口情况,就需要钻取操作,进一步细化的数据带来更精确的认识。 最后、创建数据立方体,可以想象将维度数据放在坐标轴上,度量数据位于几个坐标决定的点,这样就形成一个数据立方体,如图3所示。 OLAP分析所需的原始数据量是非常庞大的。一个分析模型,往往会涉及数百万条、数千万条、甚至更多;而分析模型中包含多个维数据,这些维又可以由浏览者作任意的提取组合。这样的结果就是大量的实时运算导致的时间延滞。我们可以设想,一个对于1000万条记录的分析模型,如果一次提取4个维度进行组合分析,那么实际的运算次数将达到4的1000次方的数量:这样的运算量将导致数十分钟乃至更长的等待时间。如果用户对维组合次序进行调整,或者增加减少某些维度的话,又将是一个重新的计算过程。OLAP分析中的重要技术--数据立方体预运算技术解决了上述分析效率问题。 除此以外,OLAP通常包括的功能还有数据旋转(变换观察维组合顺序)、数据切片(过滤无关数据,对指定数据进行重点观察),以及对数据进行跨行列运算(如行列差额、同比环比等运算)。 前端展现 数据仓库的数据以及分析结果需要用一种灵活的方式展现出来,其中包括报表、查询、数据导出、多维分析、数据可视化、数据挖掘工具等方式,前三种都是较为常见的方式,多维分析在OLAP技术部分做了介绍。其中数据可视化就是将数据用颜色或图形的方式展现出来,使用户更为直观的观察数据。数据挖掘是人工智能中的一支,它主要使用数学工具和算法对海量数据进行挖掘和处理,发现隐藏在数据背后的事物之间的关系和发展规律,从而达到对未来趋势进行预测、指导人们进行决策的目的,目前常见的数据挖掘算法包括决策树、序列分析、聚类分析、关联分析和神经网络等。 "新华08"的数据仓库系统采用B/S架构,可单独通过网页的形式提供服务,方便进行系统更新维护,用户可以简单的以访问网页的形式来使用该系统的报表、查询、多维分析、数据导出、数据可视化等功能,随着历史数据的不断积累我们将逐步引入数据挖掘算法在数据仓库中的应用,为用户提供更为深入的分析工具。 用户管理、权限控制与系统安全 该系统用户管理与权限控制采用松耦合的方式,可以兼容不同的用户管理和权限控制系统,保证不同应用系统接入时实现单点登陆和统一认证。用户可以按角色进行分类,数据仓库系统可分别对不同用户类的访问权限进行控制,保证数据安全,"新华08"的数据仓库系统采用多层次的权限控制技术,从页面功能、数据服务功能、数据本身三个层次进行权限控制,如可以控制数据是否能导出、是否可以使用多维分析功能、是否可以访问某类数据等等。 数据仓库系统的各个环节如数据存储设备、数据库服务器、多维分析服务器、应用服务器等等均采用集群技术,实现了热备及负载均衡,以保证数据仓库系统的安全稳定,同时采用多样的软硬件系统从而保障系统安全。 通过以上各个环节的技术建设,"新华08"在技术平台建设与技术储备上都已初具规模,并已面向用户推出上亿条海关进出口数据以及百万条宏观行业数据的查询分析服务,充分运用这些技术将有效保障"新华08"数据服务的高效准确,并将财经金融领域数据进行全面整合和积累,逐步提高"新华08"的金融数据服务的水平,支持用户在金融市场上有效进行交易活动。 |
| 相关评论 |
|
(责任编辑: 刘君 ) |