數(shù)據(jù)倉庫技術(shù)在地鐵交通系統(tǒng)中的應用摘 要:介紹了將數(shù)據(jù)倉庫技術(shù)應用于地鐵交通系統(tǒng)之中,其中采用的技術(shù)及數(shù)據(jù)來源,提出一種地鐵交通數(shù)據(jù)倉庫的體系結(jié)構(gòu),探討了該體系結(jié)構(gòu)建立中的數(shù)據(jù)抽取與轉(zhuǎn)換、元數(shù)據(jù)、中央數(shù)據(jù)庫與數(shù)據(jù)集市等重要組成部分。并且通過主題、維度、粒度等概念詳細研究了該數(shù)據(jù)倉庫的數(shù)據(jù)組織與數(shù)據(jù)模型的建立。正確的建立地鐵交通數(shù)據(jù)倉庫,將為決策者制定策略與方案提供數(shù)據(jù)環(huán)境的保障,從而輔助地鐵交通管理者做出正確的管理決策。關(guān)鍵詞:數(shù)據(jù)倉庫;決策支持;地鐵交通;體系結(jié)構(gòu);數(shù)據(jù)模型0引 言 隨著2008年奧運會的臨近,北京的城市交通管理和規(guī)劃越來越受到政府和社會的重視,交通狀況將直接影響到奧運會的成功與否,同時,城市交通的管理和規(guī)劃對城市的總體面貌、居民生活甚至經(jīng)濟發(fā)展都能產(chǎn)生極大的影響。城市地鐵作為城市交通中的重要組成部分,在整個交通規(guī)劃中起著舉足輕重的作用。在城市地鐵交通中,地鐵列車信息、客流量等資源的分步情況對地鐵交通中的交通規(guī)劃、交通需求管理、交通管理等方面都起著重要的作用。因此,有必要對地鐵交通中的地鐵列車車輛信息、各車站交通流量信息(如候乘數(shù)量、下車數(shù)量等)等數(shù)據(jù)進行處理,形成數(shù)據(jù)庫系統(tǒng)。地鐵交通各車站流量信息的準確分布信息也能給地鐵營運部門做出正確的管理和規(guī)劃方面的決策提供依據(jù),而這些信息也正是地鐵運行高效、及時的調(diào)度,從而既達到增加效益的經(jīng)濟目的又更好滿足人們的乘車需求的保證。本文探討的是充分利用現(xiàn)有的信息資源,在源操作型關(guān)系數(shù)據(jù)的基礎上,建立基于地鐵交通數(shù)據(jù)倉庫的分析決策信息系統(tǒng),從而輔助地鐵交通管理者做出正確的管理決策。1 采用的技術(shù)及數(shù)據(jù)來源1.1 采用的技術(shù)簡介1.1.1 數(shù)據(jù)倉庫技術(shù)(DW) 數(shù)據(jù)倉庫的精確定義是:在企業(yè)管理和決策中面向主題的、集成的、與時間相關(guān)的、不可修改的數(shù)據(jù)集合。它更像一種過程,是分布各處的數(shù)據(jù)整合、加工和分析的過程。而它的設計思想是建立一種體系化的數(shù)據(jù)存儲環(huán)境,將分析決策所需的大量數(shù)據(jù)從傳統(tǒng)的操作環(huán)境中分離出來,將分散的、難于訪問的操作數(shù)據(jù)轉(zhuǎn)換成集中統(tǒng)一、隨時可用的信息,為管理者和決策者提供一致的分析型數(shù)據(jù)環(huán)境。有兩種形式的數(shù)據(jù)環(huán)境:一是操作型數(shù)據(jù)庫,主要是數(shù)據(jù)的日常操作,包括數(shù)據(jù)查詢、修改等等;二是分析型數(shù)據(jù)倉庫,主要解決了數(shù)據(jù)庫對于數(shù)據(jù)的分析處理支持不足的缺陷,實現(xiàn)原有的以單一數(shù)據(jù)庫為中心的數(shù)據(jù)環(huán)境向數(shù)據(jù)庫與數(shù)據(jù)倉庫并存的體系化環(huán)境的發(fā)展。要從大量的地鐵車站交通流量信息數(shù)據(jù)中探索業(yè)務需要的規(guī)律,迫切需要運用數(shù)據(jù)倉庫這種模式來處理大量數(shù)據(jù),把這些雜亂而又繁復的數(shù)據(jù)變?yōu)槊嫦蛑黝}的、集成的、與時間相關(guān)的,最關(guān)鍵就是對決策者做出正確決策提供依據(jù)的有價值得信息資源,能夠及時、有效為決策提供科學的決策支持。1.1.2聯(lián)機分析處理技術(shù)(OLAP) OLAP(On-lineAnalyticalProcess,聯(lián)機分析處理)是使分析人員能夠從多種角度,對從原始數(shù)據(jù)轉(zhuǎn)化來的、真正為用戶所理解的信息進行分析,并快速獲取信息的軟件技術(shù)。OLAP實現(xiàn)了把企業(yè)內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)進行有效的集成,為企業(yè)的各層決策使用。它針對特定問題進行聯(lián)機數(shù)據(jù)訪問和分析,對數(shù)據(jù)的一系列交互查詢過程,這些過程要求對數(shù)據(jù)進行多層次、多階段的分析處理,獲得更高的歸納信息。 OLAP操作模式跟OLTP(聯(lián)機事務處理)是不同的。OLTP主要是面向操作人員,支持日常操作,需要同時處理大量事務,每個事務處理數(shù)據(jù)量都比較小,管理的數(shù)據(jù)是原始的、細節(jié)的、是當前數(shù)據(jù),并可隨時更新,而OLAP則面向決策人員,支持管理需要,所以占用大量系統(tǒng)資源,提供多角度不同詳細程度查詢信息,數(shù)據(jù)都是經(jīng)過集成導出的、綜合的、歷史的,不可更新,只能周期性刷新。OLAP經(jīng)常需要相應的底層數(shù)據(jù)結(jié)構(gòu)支持,它的技術(shù)核心是以多維方式來組織數(shù)據(jù),以多維方式來顯示數(shù)據(jù)。1.1.3數(shù)據(jù)挖掘技術(shù)(DM) DM(DataMining,數(shù)據(jù)挖掘),又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(KnowledgeDiscoveryfromDatabase),是一個從大量數(shù)據(jù)中抽取挖掘出未知的、有價值的模式或規(guī)律等知識的復雜過程。從數(shù)據(jù)倉庫的角度來看,數(shù)據(jù)挖掘可以被認為是在線分析處理(OLAP)的高級階段,但是基于多種數(shù)據(jù)理論先進技術(shù)的數(shù)據(jù)挖掘,其數(shù)據(jù)分析能力要遠超過以數(shù)據(jù)匯總為主的數(shù)據(jù)倉庫在線分析處理功能。 利用數(shù)據(jù)挖掘技術(shù)可以幫助獲得決策所需的多種知識。對于一個數(shù)據(jù)挖掘系統(tǒng)而言,它應該能夠同時搜索發(fā)現(xiàn)多種模式的知識,以滿足用戶的期望和實際需要。此外,數(shù)據(jù)挖掘系統(tǒng)還應能夠挖掘出多種層次(抽象水平)的模式知識。1.2 數(shù)據(jù)來源 地鐵交通數(shù)據(jù)倉庫主要以地鐵列車管理檔案數(shù)據(jù)庫、交通流量信息數(shù)據(jù)庫為基礎,集成地鐵交通信號控制、電視監(jiān)控、交通通信、事故報警等子系統(tǒng)的數(shù)據(jù),獲取各種動、靜態(tài)交通信息,進行調(diào)度和決策。但是,這些數(shù)據(jù)分布管理于異構(gòu)的數(shù)據(jù)平臺,數(shù)據(jù)不易集成,而進行管理決策時,需要有機集合各種數(shù)據(jù)。為此,在傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)上,將這些數(shù)據(jù)以統(tǒng)一的格式,集成、存儲在一起,建立地鐵交通數(shù)據(jù)倉庫。根據(jù)主題通過專業(yè)模型對不同源數(shù)據(jù)庫中的原始數(shù)據(jù)進行抽取和聚集,形成多維視角,為決策人員提供一個綜合的、面向分析的決策支持數(shù)據(jù)環(huán)境。2 相關(guān)的數(shù)據(jù)倉庫模型2.1體系結(jié)構(gòu) 地鐵交通數(shù)據(jù)倉庫體系結(jié)構(gòu)如圖1所示,從各種源數(shù)據(jù)出發(fā),到建立集成的綜合數(shù)據(jù)平臺,需經(jīng)如下幾步: (1)設計一個包含地鐵數(shù)據(jù)和信息的數(shù)據(jù)庫; (2)利用數(shù)據(jù)管理與建模工具,對數(shù)據(jù)進行抽取、轉(zhuǎn)換及裝載; (3)通過中央元數(shù)據(jù)管理,將整合后數(shù)據(jù)存放于中心數(shù)據(jù)倉庫; (4)根據(jù)決策管理各種不同任務,建立由本地元數(shù)據(jù)標明的面向各任務的數(shù)據(jù)集市; (5)中心數(shù)據(jù)倉庫及各數(shù)據(jù)集市的建立基礎為多維數(shù)據(jù)庫和關(guān)系數(shù)據(jù)庫,用戶通過OLAP及DM工具進行數(shù)據(jù)訪問與分析。2.2 數(shù)據(jù)倉庫模型的建立2.2.1 數(shù)據(jù)抽取和轉(zhuǎn)換 為優(yōu)化數(shù)據(jù)倉庫的分析性能,要從源數(shù)據(jù)中抽取有用的數(shù)據(jù),根據(jù)分析需求對之進行轉(zhuǎn)換,包括檢驗、整理、加工和重新組織等步驟,最終以最適宜的方式存儲于數(shù)據(jù)倉庫中。源數(shù)據(jù)分布于不同的數(shù)據(jù)平臺,因此,要針對不同情況區(qū)別對待。對于傳統(tǒng)關(guān)系型數(shù)據(jù)庫,支持一般數(shù)據(jù)抽取、復制和一定程度上數(shù)據(jù)重新組織、聚簇和匯總,滿足正常情況下的數(shù)據(jù)抽取要求;對特定數(shù)據(jù)源,采用專門數(shù)據(jù)抽取和轉(zhuǎn)換工具,與數(shù)據(jù)庫管理系統(tǒng)相互配合對操作數(shù)據(jù)進行收集、轉(zhuǎn)換和修訂,并自動把轉(zhuǎn)換后數(shù)據(jù)進行裝載。2.2.2元數(shù)據(jù) 該數(shù)據(jù)倉庫中的元數(shù)據(jù)包括了對整個數(shù)據(jù)倉庫環(huán)境(數(shù)據(jù)倉庫、多維數(shù)據(jù)庫及數(shù)據(jù)獲取系統(tǒng))的描述。元數(shù)據(jù)記錄數(shù)據(jù)倉庫所存儲數(shù)據(jù)的結(jié)構(gòu)及數(shù)據(jù)之間的關(guān)系,從而保證數(shù)據(jù)倉庫在邏輯上的一致性。元數(shù)據(jù)是整個體系結(jié)構(gòu)的核心之一。 數(shù)據(jù)倉庫中包括兩種類型的元數(shù)據(jù):一類是中央元數(shù)據(jù),不僅描述源數(shù)據(jù)的格式、目標數(shù)據(jù)的格式以及如何把源數(shù)據(jù)轉(zhuǎn)換成目標數(shù)據(jù),而且還定義了整個數(shù)據(jù)倉庫的信息模型,說明數(shù)據(jù)倉庫中的數(shù)據(jù)結(jié)構(gòu);另一類是本地元數(shù)據(jù),直接來源于中央元數(shù)據(jù),通過元數(shù)據(jù)交換,負責對中央數(shù)據(jù)倉庫中數(shù)據(jù)及數(shù)據(jù)集市的建立加以管理。
2.2.3中央數(shù)據(jù)倉庫與數(shù)據(jù)集市 中央數(shù)據(jù)倉庫是整個體系結(jié)構(gòu)建設的重點,數(shù)據(jù)從各信息子系統(tǒng)經(jīng)過綜合整理進入中央數(shù)據(jù)庫,在中央數(shù)據(jù)庫中,數(shù)據(jù)組織的應用邏輯獨立性最強,抽象程度最高。 而數(shù)據(jù)集市則按照決策任務的分類進行組織,從中央數(shù)據(jù)倉庫中通過數(shù)據(jù)再抽取與集成形成不同的數(shù)據(jù)集市,如地鐵車輛狀況、各站客流量情況、突發(fā)事件處理、特勤任務等面向不同決策任務的數(shù)據(jù)集市。數(shù)據(jù)集市的數(shù)據(jù)組織模式可以參照中央數(shù)據(jù)倉庫的模式,但相對更獨立,數(shù)據(jù)量小,規(guī)模小,所以決策人員能夠快速獲取信息。3數(shù)據(jù)倉庫中的數(shù)據(jù)組織 數(shù)據(jù)倉庫中涉及的數(shù)據(jù)不僅具有一般操作型數(shù)據(jù)而且是具備時空特性數(shù)據(jù)。地鐵交通數(shù)據(jù)倉庫通過主題、維度、粒度、分割等概念的引入,根據(jù)主題從不同源數(shù)據(jù)中截取多粒度的數(shù)據(jù),并以多種維度進行存儲、管理及分析。3.1主題的確立面向主題進行數(shù)據(jù)組織,即在較高層次上對分析對象的數(shù)據(jù)進行完整、一致的描述,刻畫各個分析對象所涉及的各項數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。地鐵交通中涉及的因素很多,要考慮地鐵交通本身的狀態(tài),還要考慮根據(jù)其自身狀態(tài)做出的決策,以及這些決策與地鐵交通本身的互相影響和制約關(guān)系。所以大致可以把地鐵交通的基本主題確立如下表1所示:
3.2擴展的星型模型 在數(shù)據(jù)倉庫的數(shù)據(jù)庫設計中,星型模型是一種基本的數(shù)據(jù)模式。星型模式是一種多維的數(shù)據(jù)關(guān)系,它由一個事實表(FactTable)和一組維表(DimensionTable)組成。每個維表都有一個維作為主鍵,所有這些維則組合成事實表的主鍵,換言之,事實表主鍵的每個元素都是維表的外鍵。事實表的非主屬性稱為事實(Fact),它們一般都是數(shù)值或其他可以進行計算的數(shù)據(jù);而維大都是文字、時間等類型的數(shù)據(jù)。如圖2所示為擴展的星型模型: 采用這種擴展的星型模型,多層分維結(jié)構(gòu)減少了一級分維表的內(nèi)容,避免一級分維表中出現(xiàn)大量的重復數(shù)據(jù),使得復雜的數(shù)據(jù)模式保持簡潔清晰。
3.3關(guān)于數(shù)據(jù)倉庫中的數(shù)據(jù)粒度 數(shù)據(jù)倉庫的粒度描述的是數(shù)據(jù)倉庫中數(shù)據(jù)單元的綜合程度。粒度越小,數(shù)據(jù)就越詳細,綜合度就越低;反之,粒度越大,級別越高,數(shù)據(jù)綜合度就越高,內(nèi)容則越模糊。地鐵交通數(shù)據(jù)倉庫中的數(shù)據(jù)粒度的劃分是根據(jù)數(shù)據(jù)采集的精度、數(shù)據(jù)的時間和空間分辨率來實現(xiàn)的。粒度劃分的大小直接關(guān)系到數(shù)據(jù)倉庫中的數(shù)據(jù)量和所適合的查詢類型。4結(jié)束語 地鐵交通數(shù)據(jù)倉庫的建立,提高了整個地鐵交通系統(tǒng)在城市交通中的重要性,并可解決日益嚴重的交通問題。而只有正確的建立了輔助決策的數(shù)據(jù)倉庫,才能為決策者提供完整、及時、準確、明了的決策信息,使決策者做出正確決策,真正促進地鐵交通的有效性,緩解城市交通問題。參考文獻:[1]LogiFilippo,RitchieStephenG.Developmentandevaluationofaknowledge-basedsystemfortrafficcongestionmanagementandcontrol[J].TransportationResearchPartC,2001,9(3):433-459.[2]王 珊.數(shù)據(jù)倉庫技術(shù)與聯(lián)機分析處理[M].北京:科學出版社,1998.[3]陳文偉.智能決策支持技術(shù)[M].北京:電子工業(yè)出版社,1998.[4]李書濤.決策支持系統(tǒng)原理與技術(shù)[M].北京:北京理工大學出版社,1996.



