【廣告】
數(shù)據(jù)挖掘作為近年來(lái)新興的一門(mén)計(jì)算機(jī)邊緣學(xué)科,其在國(guó)內(nèi)外引起了越來(lái)越多的關(guān)注。并且隨著數(shù)據(jù)挖掘技術(shù)的不斷改進(jìn)和數(shù)據(jù)挖掘工具的不斷完善,數(shù)據(jù)挖掘必將在各行各業(yè)中得到廣泛的應(yīng)用。
大數(shù)據(jù)帶來(lái)的潛在經(jīng)濟(jì)價(jià)值和社會(huì)價(jià)值巨大,但這些價(jià)值必須通過(guò)數(shù)據(jù)的有效整合、分析和挖掘才能釋放出來(lái)。數(shù)據(jù)的整合是建立數(shù)據(jù)倉(cāng)庫(kù)的必要工作,對(duì)于結(jié)構(gòu)化數(shù)據(jù)的整合有很多解決方案和軟件工具。目前的挑戰(zhàn)是非結(jié)構(gòu)化數(shù)據(jù)的融合和整合,如:文本數(shù)據(jù)、圖像數(shù)據(jù)、信號(hào)數(shù)據(jù)、音頻數(shù)據(jù)、視頻數(shù)據(jù)等。
大數(shù)據(jù)技術(shù)及其應(yīng)用的驅(qū)動(dòng)原因,在于數(shù)據(jù)管理理念的不斷變革。數(shù)據(jù)管理是利用計(jì)算機(jī)硬件和軟件技術(shù)對(duì)數(shù)據(jù)進(jìn)行有效地收集、存儲(chǔ)、處理和應(yīng)用的過(guò)程,其目的在于充分有效地發(fā)揮數(shù)據(jù)的作用。
隨著現(xiàn)代信息傳播技術(shù)手段和方式不斷豐富,信息獲取、信息傳遞、信息處理、信息再生、信息利用等功能應(yīng)用日益多樣化,智能化信息系統(tǒng)逐漸形成一個(gè)信息網(wǎng)絡(luò)體系,人類(lèi)社會(huì)的生產(chǎn)方式、工作方式、學(xué)習(xí)方式、交往方式、生活方式、思維方式等發(fā)生了極其深刻的變革,互動(dòng)化、即時(shí)性、全媒體等成為常態(tài)性的信息生態(tài)環(huán)境,傳統(tǒng)的數(shù)據(jù)庫(kù)組織架構(gòu)和信息服務(wù)模式己經(jīng)難以適應(yīng)信息社會(huì)現(xiàn)實(shí)需要,整個(gè)信息技術(shù)架構(gòu)的革命性重構(gòu)勢(shì)在必行,大數(shù)據(jù)成為信息技術(shù)發(fā)展的必由之路。
數(shù)據(jù)挖掘方法是由人工智能、機(jī)器學(xué)習(xí)的方法發(fā)展而來(lái),一般結(jié)合傳統(tǒng)的統(tǒng)計(jì)分析方法、模糊數(shù)學(xué)以及科學(xué)計(jì)算可視化技術(shù),以數(shù)據(jù)庫(kù)為研究對(duì)象,形成的數(shù)據(jù)挖掘的方法和技術(shù)。
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室張華平主任研發(fā)的NLPIR大數(shù)據(jù)語(yǔ)義智能分析技術(shù)是對(duì)語(yǔ)法、詞法和語(yǔ)義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)平臺(tái)是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語(yǔ)言理解、文本挖掘和語(yǔ)義搜索的研究成果,并針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開(kāi)發(fā)平臺(tái)。
其中KGB(Knowledge Graph Builder)知識(shí)圖譜引擎是我們自主研發(fā)的知識(shí)圖譜構(gòu)建與推理引擎,基于漢語(yǔ)詞法分析的基礎(chǔ)上,采用KGB語(yǔ)法實(shí)現(xiàn)了實(shí)時(shí)高效的知識(shí)生成,可以從非結(jié)構(gòu)化文本中抽取各類(lèi)知識(shí),并實(shí)現(xiàn)了從表格中抽取指定的內(nèi)容等。KGB同時(shí)可以定義不同的動(dòng)作,如抽取動(dòng)作,并能自定義各類(lèi)后處理程序。利用KGB知識(shí)圖譜引擎可以抽取到產(chǎn)品的詳細(xì)報(bào)價(jià)信息,方便進(jìn)行下一步的數(shù)據(jù)挖掘與圖譜構(gòu)建。
大數(shù)據(jù)挖掘技術(shù)是一個(gè)充滿希望的研究領(lǐng)域,商業(yè)利益的強(qiáng)大驅(qū)動(dòng)力將會(huì)不停地促進(jìn)它的發(fā)展。每年都有新的數(shù)據(jù)挖掘方法和模型問(wèn)世,人們對(duì)它的研究正日益廣泛和深入。對(duì)海量文本信息進(jìn)行有效的數(shù)據(jù)挖掘已經(jīng)是自然語(yǔ)言處理、信息檢索、信息分類(lèi)、信息過(guò)濾、語(yǔ)義挖掘、文本的機(jī)器學(xué)習(xí)等諸多應(yīng)用領(lǐng)域基礎(chǔ)且關(guān)鍵的研究問(wèn)題,它影響著上層信息服務(wù)與信息共享的質(zhì)量和水平。NLPIR大數(shù)據(jù)語(yǔ)義智能技術(shù)將對(duì)中文數(shù)據(jù)挖掘技術(shù)進(jìn)行深入研究,必將提供出高質(zhì)量、多功能的中文數(shù)據(jù)挖掘算法并促進(jìn)自然語(yǔ)言理解系統(tǒng)的廣泛應(yīng)用。
企業(yè): 靈玖中科軟件(北京)有限公司
手機(jī):
電話: 010-62648216
地址: 北京市海淀區(qū)蘇州街盈智大廈