【廣告】
面對(duì)信息社會(huì)中數(shù)據(jù)和數(shù)據(jù)庫的爆炸式增長(zhǎng),人們分析數(shù)據(jù)和從中提取有用信息的能力,遠(yuǎn)遠(yuǎn)不能滿足實(shí)際需要。但目前所能做到的只是對(duì)數(shù)據(jù)庫中已有的數(shù)據(jù)進(jìn)行存儲(chǔ)、查詢、統(tǒng)計(jì)等功能,但它卻無法發(fā)現(xiàn)這些數(shù)據(jù)中存在的關(guān)系和規(guī)則,更不能根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來的發(fā)展趨勢(shì)。這種現(xiàn)象產(chǎn)生的主要原因就是缺乏挖掘數(shù)據(jù)背后隱藏的知識(shí)的有力手段,從而導(dǎo)致“數(shù)據(jù)爆炸但知識(shí)貧乏”的現(xiàn)象。數(shù)據(jù)挖掘就是為迎合這種要求而產(chǎn)生并迅速發(fā)展起來的,可用于開發(fā)信息資源的一種新的數(shù)據(jù)處理技術(shù)。
數(shù)據(jù)是進(jìn)行信息化處理的基礎(chǔ),從數(shù)據(jù)中獲取重要信息并將其轉(zhuǎn)化為實(shí)際的生產(chǎn)和應(yīng)用效果變得越來越廣泛,也推動(dòng)著社會(huì)生產(chǎn)和市場(chǎng)經(jīng)濟(jì)的快速發(fā)展。盡管現(xiàn)代的數(shù)據(jù)庫技術(shù)已經(jīng)相當(dāng)優(yōu)秀能夠使我們使我們很容易的存儲(chǔ)大量的數(shù)據(jù)流,但還沒有一種成熟的技術(shù)幫助我們分析、理解并使數(shù)據(jù)以可理解的信息表示出來。以往,我們通常由知識(shí)工程師把**經(jīng)驗(yàn)知識(shí)經(jīng)過分析、篩選、比較、綜合、再提取出知識(shí)和規(guī)則來獲取有用信息。但由于**所擁有知識(shí)的有局限性,所以對(duì)于獲取的信息是否完全表達(dá)了數(shù)據(jù)本身還不是很確定。傳統(tǒng)的知識(shí)獲取技術(shù)已經(jīng)無法滿足巨型數(shù)據(jù)倉庫,因此數(shù)據(jù)挖掘技術(shù)的出現(xiàn)就完美的解決了這些問題。
數(shù)據(jù)挖掘是從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識(shí)發(fā)現(xiàn)的過程,它是一門涉及面很廣的交叉性新興學(xué)科,涉及到數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等領(lǐng)域。數(shù)據(jù)挖掘是一種新的信息處理技術(shù),其主要特點(diǎn)是對(duì)數(shù)據(jù)庫中的大量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,并從中提取輔助決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)過程中的一個(gè)特定步驟,它用專門算法從數(shù)據(jù)中抽取模式(patterns),它并不是用規(guī)范的數(shù)據(jù)庫查詢語言進(jìn)行查詢,而是對(duì)查詢的內(nèi)容進(jìn)行模式的總結(jié)和內(nèi)在規(guī)律的搜索。傳統(tǒng)的查詢和報(bào)表處理只是得到事件發(fā)生的結(jié)果,并沒有深入研究發(fā)生的原 因,而數(shù)據(jù)挖掘則主要了解發(fā)生的原因,并且以一定的置信度對(duì)未來進(jìn)行預(yù)測(cè),用來為決策行為提供有利的支持。
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室張華平主任研發(fā)的NLPIR-Parser大數(shù)據(jù)語義智能分析技術(shù)是對(duì)語法、詞法和語義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語義智能分析平臺(tái)是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺(tái)。
NLPIR-Parser大數(shù)據(jù)語義智能分析平臺(tái)主要有精準(zhǔn)采集、文檔轉(zhuǎn)化、新詞發(fā)現(xiàn)、批量分詞、語言統(tǒng)計(jì)、文本聚類、文本分類、摘要實(shí)體、智能過濾、情感分析、文檔去重、全文檢索、編碼轉(zhuǎn)換等十余項(xiàng)功能模塊,平臺(tái)提供了客戶端工具,云服務(wù)與二次開發(fā)接口等多種產(chǎn)品使用形式。各個(gè)中間件API可以無縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統(tǒng)平臺(tái),可以供Java,Python,C,C#等各類開發(fā)語言使用。
隨著云計(jì)算、移動(dòng)互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)等技術(shù)的發(fā)展和完善,相信大數(shù)據(jù)在各個(gè)領(lǐng)域的應(yīng)用會(huì)越來越廣泛和深入,相關(guān)的研究也會(huì)越來越全面和深入,在信息管理領(lǐng)域,綜合應(yīng)用數(shù)據(jù)挖掘技術(shù)和人工智能技術(shù),獲取用戶知識(shí)、文獻(xiàn)知識(shí)等各類知識(shí),將是實(shí)現(xiàn)知識(shí)檢索和知識(shí)管理發(fā)展的必經(jīng)之路。
企業(yè): 靈玖中科軟件(北京)有限公司
手機(jī):
電話: 010-62648216
地址: 北京市海淀區(qū)蘇州街盈智大廈