从近来各种大小规模的企业与产业竞相布建商业智能(BI)系统的现象来看,此一技术对企业制定正确之经营与销售决策的重要性已不言自明。但是,如何选择甚至设计一套最适合其业务范围、产业特性,以及特殊需求的商业智能系统,着实令企业经营者伤透脑筋。本文将逐一介绍建构完整BI系统所需的主要工具,以提供企业选择产品之参考。
经过多年的演进与调整,目前的商业智能系统已发展出一套完整的架构,标准的作业程序是以建置资料存储(Data Warehouse;DW)为基础,将不同作业系统资料库、不同来源、不同型态的资料,经过清洗(Cleansing)以及撷取、转换、载入(Extraction, Transformation, Loading;ETL)等程序后,以一致的格式经组织化地储存在资料存储中,以供管理者使用各式线上查询分析处理工具(On Line Analytical Processing;OLAP)、资料采矿(Data Mining;DM)、决策支持系统(Decision Support System )。
经过这些缜密的步骤,商业智能系统可使用者协助挖掘出埋藏在数据资料背后的知识,将其转化成为有助于企业决策的有用知识,作为决策支持的依据,甚至可预测未来的趋势。
虽然BI技术已发展出标准流程,但其中所使用的技术、方法论、软体工具包罗万象,各家厂商所提供的解决方案也有很大的差异。以下将就几项主要技术的特性逐一探讨。
资料存储:为BI平台奠基
资料存储是一切商业智能系统的基础,如果没有资料存储,或是没有足够的资料量,后续的汇整、分析、决策工作都不可能实现。我们可由广义与狭义的定义来探讨资料存储技术。
就狭义或其原来的定义而言,资料存储一般是指一个超大型的资料库。随着近年来个人电脑及互联网的蓬勃发展,使得企业界得以持续不断地收急并累积大量的资料,如欲完整地将所有长期搜集的资料保留下来,并转化为有用的营运信息,当务之急是建立一个超大容量,可集中储存电子化信息的关联式资料库,资料库容量大小可能从50 gigabytes(GB)到1 terabyte(TB)不等。各种不同来源与型态资料,不论是报告、型录、相片、影音光碟,或是录音存档,在存入资料库之前必须先经过格式的转换与清洗等处理步骤。如此一来,企业便可确定资料存储本身所含资料是干净的(即事先剔除了错误的资料)、完整的,且经过整合的,以免误导企业而使决策行为产生混乱与误用。
此后,资料将以整齐的形式与系统化的排列方式储存在仓储系统内,以供查询和分析之用。因此,从广义来看,Data Warehouse更深层的意义是资料的整个转化流程,现在业界普遍以资料存储一词泛指包括OLAP、ETL、DSS等工具的整合式软体平台。
资料存储可达成二个主要目标:资料管理(控制现存之资料混乱状态)以及资料展现(提供直觉式的企业信息存取方式)。一般而言,资料存储包括以下的元件:
运行的资料来源(Operational data sources)
设计/开发工具
资料抽取(data extraction)与转换(transformation)工具
资料库管理系统(DBMS)
资料存取与分析工具
系统管理工具
相对于传统系统的被动式查询(当需要查询时才做运算),资料存储采主动式查询(当来源更动时,即作出相对应的反应),因此Data Warehouse系统能够主动地从所有的分散式﹙distributed﹚、自主性﹙autonomous﹚、异质性﹙heterogeneous﹚的资料来源中,搜集、撷取并维护相关的信息。当企业内部各个部门需要利用不同资料来源,或是变动资料库的内容时,资料存储系统便可以将撷取对应的资料,并经过格式处理并转换成内部型态后,再与已存放于资料存储中的信息互相整合。由于信息已事先存于系统中,因此可即时地反应查询及资料分析工作。
运作速度与弹性是核心资料库之设计的关键。现今大多数的商业智能系统多采取传统关联式资料库(RDBMS),其缺点是容易使得原始资料暴增到四、五倍,而且在收集资料后,无法将资料作多向广度面的运用,有些厂商特别强调其信息仓储工具结合了创新的专利查询处理技术及效能最佳化的方法来进行高效能资料分析,以提供比传统关联式资料库快了100倍的即席查询效能。
目前的资料存储系统具备以下几个特色:
主题导向(Subject-Oriented)--在任何企业中,资料自然的会以相同的种类或主题聚集在一起,因此资料存储以这些高层次且不重复的主题为主要的处理对象,例如:顾客、订单、产品、供应商等等,有别于作业系统的流程导向。
整合性(Integration)--资料存储内的资料必须具有相当整合性,在资料的转换过程中,要让栏位名称、测量变数、编码方式、日期时间等等主题属性具有一致性的格式。
时间变化性(Time Variation)--日常的作业系统每天都有新资料增加,为维持资料存储的可用性,必须在某些特定的时间点到作业系统中撷取新资料,称之为'快照(Snapshot)'。
非挥发性(Non Volatilization):当资料放到资料存储中后,便不再随着时间的变化而有异动、修正或更新,因此具有唯读的性质。
另外,许多人将资料超市(Data Marts)与资料存储混为一谈。资料超市所涵盖的范围比资料存储小,其资料的涵盖范围为企业的部份资料,而且是属于特定主题的资料。事实上,此种仓储模式为资料存储的一个子集,一般仅提供部份信息,给某一群使用者或某一部门使用,以符合企业内部的特殊需求。企业级资料存储的建置与管理往往非常昂贵且耗时;建立的方法通常是从上到下(top down)由统筹的信息服务单位主导。而资料超市通常只为了特定的决策支持应用程式或使用群组而设计,采由下而上(bottom up)的建置方式。
功能完备的资料存储系统还需支持复制功能,也就是在本公司之外的远端复制一份资料库,除了可储存备份档案外,同时也可也效地进行灾难复原(Disaster Recovery)的工作,以确保本公司在发生灾害(如火灾、水灾,或地震)致使资料发生损毁时,还有备份的资料在远端安全的保留着。