【廣告】
1、傳統(tǒng)關系模型的擴充關系模型實際上還是管理信息系統(tǒng)重要的支撐模型,在此基礎之上,引入新的手段,使之能表達更加復雜的數(shù)據(jù)關系,擴大其實用性,提高建模能力。從總體上看,擴充一般在兩個方面進行。一是實現(xiàn)關系模型嵌套,這種方式可以實現(xiàn)“表中表”這類較為復雜的數(shù)據(jù)模型;二是語義擴充,如支持關系繼承及關系函數(shù)等。
我們通過“體系感”來把控自己,通過圖紙來建立高樓大廈。同樣,我們可以通過“數(shù)據(jù)模型”來管理我們的數(shù)據(jù)。
數(shù)據(jù)模型就是數(shù)據(jù)的組織和存儲方法,它強調(diào)了從業(yè)務、數(shù)據(jù)存取和使用角度合理存儲數(shù)據(jù)、有了適合業(yè)務和基礎數(shù)據(jù)存儲環(huán)境的模型,那么大數(shù)據(jù)就會獲得以下好處:
性能
良好的數(shù)據(jù)模型你幫助我們快速查詢所需要的數(shù)據(jù),減少數(shù)據(jù)的IO吞吐。
成本
良好的數(shù)據(jù)模型能極大地減少不必要的數(shù)據(jù)冗余,也能實現(xiàn)計算結(jié)果復用,極大地降低大數(shù)據(jù)系統(tǒng)中的存儲和計算成本。
效率
良好的數(shù)據(jù)模型能極大地改善用戶使用數(shù)據(jù)的體驗,提高使用數(shù)據(jù)的效率。
質(zhì)量
良好的數(shù)據(jù)模型能改善數(shù)據(jù)統(tǒng)計口徑的不一致性,減少計算錯誤的可能下。
維度建模
1、維度和指標的概念
按照維度表、事實表構(gòu)建數(shù)據(jù)模型,通過指標評價企業(yè)經(jīng)營活動。
維度一般包括:地區(qū)、時間、部門、產(chǎn)品等等。
指標一般包括:銷售數(shù)量、銷售金額、平均銷售金額等等。
2、星型模型
星型模是一種多維的數(shù)據(jù)關系,它由一個事實表和一組維表組成。每個維表都有一個維作為主鍵,所有這些維的主鍵組合成事實表的主鍵。強調(diào)的是對維度進行預處理,將多個維度集合到一個事實表,形成一個寬表。這也是我們在使用 hive 時,經(jīng)常會看到一些大寬表的原因,大寬表一般都是事實表,包含了維度關聯(lián)的主鍵和一些度量信息,而維度表則是事實表里面維度的具體信息,使用時候一般通過 join 來組合數(shù)據(jù),相對來說對OLAP 的分析比較方便。
數(shù)據(jù)建模的具體過程可分為六大步驟:
一、制訂目標
制訂目標的前提是理解業(yè)務,明確要解決的商業(yè)現(xiàn)實問題是什么?
如:在社交平臺KOL中,存在假粉絲的情況,如何識別假粉就是一個要解決的現(xiàn)實問題。
二、數(shù)據(jù)理解與準備
基于要解決的現(xiàn)實問題,理解和準備數(shù)據(jù),一般需要解決以下問題:
1.需要哪些數(shù)據(jù)指標(即特征提?。??(如:哪些指標能區(qū)別真粉和假粉?)
2.數(shù)據(jù)指標的含義是什么?
3.數(shù)據(jù)的質(zhì)量如何?(如:是否存在缺失值?)
4.數(shù)據(jù)能否滿足需求?
5.數(shù)據(jù)還需要如何加工?(如:轉(zhuǎn)換數(shù)據(jù)指標,將類別型變量轉(zhuǎn)化為0-1啞變量,或?qū)⑦B續(xù)型數(shù)據(jù)轉(zhuǎn)化為有序變量)
6.探索數(shù)據(jù)中的規(guī)律和模式,進而形成假設。
需要注意的是,數(shù)據(jù)準備工作可能需要嘗試多次。因為在復雜的大型數(shù)據(jù)中,較難發(fā)現(xiàn)數(shù)據(jù)中存在的模式,初步形成的假設可能會被很快推到,這時一定要靜心鉆研,不斷試錯。
數(shù)據(jù)建模后需要評估模型的效果,因此一般需要將數(shù)據(jù)分為訓練集和測試集。