【廣告】
當今,信息技術為人類步入智能社會開啟了大門,帶動了互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、電子商務、現(xiàn)代物流、網(wǎng)絡金融等現(xiàn)代服務業(yè)發(fā)展,催生了車聯(lián)網(wǎng)、智能電網(wǎng)、新能源、智能交通、智能城市、高端裝備制造等新興產(chǎn)業(yè)發(fā)展.現(xiàn)代信息技術正成為各行各業(yè)運營和發(fā)展的引擎.但這個引擎正面臨著大數(shù)據(jù)這個巨大的考驗.各種業(yè)務數(shù)據(jù)正以幾何級數(shù)的形式爆發(fā),其格式、收集、儲存、檢索、分析、應用等諸多問題,不再能以傳統(tǒng)的信息處理技術加以解決,對人類實現(xiàn)數(shù)字社會、網(wǎng)絡社會和智能社會帶來了極大的障礙.
數(shù)據(jù)無疑是新型信息技術服務和科學研究的基石,而大數(shù)據(jù)處理技術理所當然地成為當今信息技術發(fā)展的核心熱點,大數(shù)據(jù)處理技術的蓬勃發(fā)展也預示著又一次信息技術革命的到來.另一方面,隨著國家經(jīng)濟結構調(diào)整、產(chǎn)業(yè)升級的不斷深化,信息處理技術的作用將日益凸顯,而大數(shù)據(jù)處理技術無疑將成為在國民經(jīng)濟支柱產(chǎn)業(yè)信息化建設中實現(xiàn)核心技術的彎道追趕、跟隨發(fā)展、應用突破、減少綁架的**突破點.
大數(shù)據(jù)帶來的不僅是機遇,同時也是挑戰(zhàn).傳統(tǒng)的數(shù)據(jù)處理手段已經(jīng)無法滿足大數(shù)據(jù)的海量實時需求,需要采用新一代的信息技術來應對大數(shù)據(jù)的爆發(fā).大數(shù)據(jù)技術一般歸納為五大類:
基礎架構支持:主要包括為支撐大數(shù)據(jù)處理的基礎架構級數(shù)據(jù)中心管理、云計算平臺、云存儲設備及技術、網(wǎng)絡技術、資源監(jiān)控等技術.大數(shù)據(jù)處理需要擁有大規(guī)模物理資源的云數(shù)據(jù)中心和具備高效的調(diào)度管理功能的云計算平臺的支撐.
數(shù)據(jù)采集技術:數(shù)據(jù)采集技術是數(shù)據(jù)處理的必備條件,首先需要有數(shù)據(jù)采集的手段,把信息收集上來,才能應用上層的數(shù)據(jù)處理技術.數(shù)據(jù)采集除了各類傳感設備等硬件軟件設施之外,主要涉及到的是數(shù)據(jù)的ETL(采集、轉(zhuǎn)換、加載)過程,能對數(shù)據(jù)進行清洗、過濾、校驗、轉(zhuǎn)換等各種預處理,將有效的數(shù)據(jù)轉(zhuǎn)換成適合的格式和類型.同時,為了支持多源異構的數(shù)據(jù)采集和存儲訪問,還需設計企業(yè)的數(shù)據(jù)總線,方便企業(yè)各個應用和服務之間數(shù)據(jù)的交換和共享.
數(shù)據(jù)存儲技術:數(shù)據(jù)經(jīng)過采集和轉(zhuǎn)換之后,需要存儲歸檔.針對海量的大數(shù)據(jù),一般可以采用分布式文件系統(tǒng)和分布式數(shù)據(jù)庫的存儲方式,把數(shù)據(jù)分布到多個存儲節(jié)點上,同時還需提供備份、安全、訪問接口及協(xié)議等機制.
數(shù)據(jù)計算:我們把與數(shù)據(jù)查詢、統(tǒng)計、分析、預測、挖掘、圖譜處理、BI商業(yè)智能等各項相關的技術統(tǒng)稱為數(shù)據(jù)計算技術.數(shù)據(jù)計算技術涵蓋數(shù)據(jù)處理的方方面面,也是大數(shù)據(jù)技術的核心.
數(shù)據(jù)展現(xiàn)與交互:數(shù)據(jù)展現(xiàn)與交互在大數(shù)據(jù)技術中也至關重要,因為數(shù)據(jù)最終需要為人們所使用,為生產(chǎn)、運營、規(guī)劃提供決策支持.選擇恰當?shù)摹⑸鷦又庇^的展示方式能夠幫助我們更好地理解數(shù)據(jù)及其內(nèi)涵和關聯(lián)關系,也能夠更有效地解釋和運用數(shù)據(jù),發(fā)揮其價值.在展現(xiàn)方式上,除了傳統(tǒng)的報表、圖形之外,我們還可以結合現(xiàn)代化的可視化工具及人機交互手段,甚至是基于最新的處理技術增強現(xiàn)實手段,來實現(xiàn)數(shù)據(jù)與現(xiàn)實的無縫接口.
北京理工大學大數(shù)據(jù)搜索與挖掘?qū)嶒炇覐埲A平主任研發(fā)的NLPIR大數(shù)據(jù)語義智能分析技術是滿足大數(shù)據(jù)挖掘?qū)φZ法、詞法和語義的綜合應用。NLPIR大數(shù)據(jù)語義智能分析平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內(nèi)容處理的全技術鏈條的共享開發(fā)平臺。
NLPIR大數(shù)據(jù)語義智能分析平臺主要有精準采集、文檔轉(zhuǎn)化、新詞發(fā)現(xiàn)、批量分詞、語言統(tǒng)計、文本聚類、文本分類、摘要實體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉(zhuǎn)換等十余項功能模塊,平臺提供了客戶端工具,云服務與二次開發(fā)接口等多種產(chǎn)品使用形式。各個中間件API可以無縫地融合到客戶的各類復雜應用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統(tǒng)平臺,可以供Java,Python,C,C#等各類開發(fā)語言使用。
大數(shù)據(jù)挖掘已成為大數(shù)據(jù)技術最重要的應用,它從大數(shù)據(jù)中提取、挖掘?qū)I(yè)務發(fā)展有價值的、潛在的知識,找出趨勢,為決策層提供有力依據(jù),對產(chǎn)品或服務發(fā)展方向起到積極作用,將有力推動企業(yè)內(nèi)部的科學化、信息化管理。在信息管理領域,綜合應用數(shù)據(jù)分析技術和人工智能技術,獲取用戶知識、文獻知識等各類知識,將是實現(xiàn)知識檢索和知識管理發(fā)展的必經(jīng)之路。