【廣告】
隨著計算機科學(xué)的不斷發(fā)展和成熟,計算機應(yīng)用開始邁人知識處理、語言理解階段,人們對計算機的智能提出了新的要求隨著社會的日益信息化,人們越來越強烈地希望能更好地同計算機交流。自然語言就是這樣一個媒介。
自然語言理解是計算機科學(xué)中的一個引人入勝的、富有挑戰(zhàn)性的課題。從計算機科學(xué)特別是從人工智能的觀點看,自然語言理解的任務(wù)是建立一種計算機模型,這種計算機模型能夠給出象人那樣理解、分析并回答自然語言(即人們?nèi)粘J褂玫母鞣N通俗語言)的結(jié)果。
自然語言理解技術(shù)的含義:
首先,?自然語言是極其復(fù)雜的符號系統(tǒng)。一個人盡管可以對自己的母語運用自如,?但卻無法把自己母語的構(gòu)成規(guī)律、意義的表達規(guī)律和語言使用的規(guī)律用計算機可以接受的方式徹底說清楚。傳統(tǒng)的語言學(xué)是在沒有計算機參照的條件下發(fā)展起來的,?雖然為自然語言理解積累了寶貴的財富,?但那是講給人的,?真正要讓語言學(xué)知識變成計算機上可操作的,?絕不是那么簡單,?也不能那么模糊。這個目標(biāo)的實現(xiàn),需要大量又懂語言學(xué)又懂計算機的人在正確的技術(shù)路線的指導(dǎo)下一起做非常大規(guī)模的基本建設(shè),?絕不是一拍腦袋想出個“絕招”就能解決的。
其次,?自然語言的各個層次上都含有巨大的不確定性。在語音和文字層次上,有一字多音、一音多字的問題;?在詞法和句法層次上,?有詞類詞性、詞邊界、句法結(jié)構(gòu)的不確定性問題;?在語義和語用層次上,?也有大量的因種種原因造成的內(nèi)涵、外延、指代、言外之義的不確定性。語言學(xué)上把這些不確定性叫做“歧義”。歧義一般不能通過發(fā)生歧義的語言單位自身獲得解決,?而必須借助于更大的語言單位乃至非語言的環(huán)境背景因素和常識來解決。人類有很強的依靠整體消除局部不確定性的能力和常識推理能力,?體現(xiàn)在語言上就是利用語境信息和常識消除歧義的能力。使計算機獲得同樣強大的能力,?是從事自然語言理解的學(xué)者夢寐以求的目標(biāo)。
另外,?自然語言不是一成不變的死的語言,?它在社會生活中發(fā)展,?在操不同語言和同一語言的不同變體的人們之間的相互影響中變化。一個詞、一個說法可能在一夜之間突然流行起來;?特殊的人群結(jié)構(gòu)變化會導(dǎo)致新的語言或新的語言變體?(如方言)?的出現(xiàn)。這些都要求理解自然語言的計算機程序要具有對外界語言環(huán)境的應(yīng)變能力。
最后一點,?自然語言是人們交流思想的工具。既然交流的是思想,?那思想本身在計算機里的組織結(jié)構(gòu)就顯得格外重要。在人工智能里,?這就是“知識表示”的問題??梢哉f,?在知識表示問題上的突破,?對于自然語言理解的進展將產(chǎn)生決定性的影響。
北京理工大學(xué)大數(shù)據(jù)實驗室張華平主任研發(fā)的NLPIR大數(shù)據(jù)語義智能分析技術(shù)是對語法、詞法和語義的綜合應(yīng)用。NLPIR大數(shù)據(jù)語義智能分析平臺平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺。包括大數(shù)據(jù)完整的技術(shù)鏈條:網(wǎng)絡(luò)采集、正文提取、中英文分詞、詞性標(biāo)注、實體抽取、詞頻統(tǒng)計、關(guān)鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴展、繁簡編碼轉(zhuǎn)換、自動注音、文本聚類等功能。
在大數(shù)據(jù)時代,對海量文本信息進行有效的語義分析已經(jīng)是自然語言處理、信息檢索、信息分類、信息過濾、語義挖掘、文本的機器學(xué)習(xí)等諸多應(yīng)用領(lǐng)域基礎(chǔ)且關(guān)鍵的研究問題,它影響著上層信息服務(wù)與信息共享的質(zhì)量和水平。NLPIR大數(shù)據(jù)語義智能技術(shù)將對中文數(shù)據(jù)挖掘技術(shù)進行深入研究,必將提供出高質(zhì)量、多功能的中文數(shù)據(jù)挖掘算法并促進自然語言理解系統(tǒng)的廣泛應(yīng)用。
企業(yè): 靈玖中科軟件(北京)有限公司
手機:
電話: 010-62648216
地址: 北京市海淀區(qū)蘇州街盈智大廈