拉尾盘说明什么-股票app官网公司名称-【东方资本】,股票交易规则t 0代表什么,a股怎样会被st,涨8配资网站

EN

超AI說|前沿NLP技術(shù)讓機器善解人意,從感知智能躍向認(rèn)知智能

2021-10-29

說到自然語言處理(NLP)到底干什么的,我們可以舉個例子。假如孔子穿越到現(xiàn)在,他理解現(xiàn)代漢語也是需要成本的。因為語言是動態(tài)的,需要放在時間和空間的維度上去看待,它是不斷演化的。我們每天都會產(chǎn)生一些新詞,比如說“不明覺厲”、“同九義,何汝秀”,同時我們要摒棄一些舊詞,比如說“三綱五常”。

其實,語言不止在時間和空間上有g(shù)ap,人類與機器之間也存在一個gap。自然語言處理主要就是解決這個gap,讓機器能夠讀懂人類的語言,包括人類的書面語或者口語。

說到人類與機器的最大的gap,我們首先想到的是思維。人類是有思維的,而機器沒有。現(xiàn)階段人類與機器最大的gap,我覺得應(yīng)該是語義。人類的語義主要通過文字、聲音、表情等去表達(dá);而機器是冰冷的,只懂得0和1的語言。

如何將人類與機器的gap縮短,顯然有兩條路:第一條路,我們把人類的語言轉(zhuǎn)化為機器能夠讀懂的語言;第二條路,讓機器能夠自動地讀懂人類的感情、人類的聲音。顯然,第二條路是非常苛刻的,我們既然勉強不了機器,我們可以嘗試去改變自己。

說到技術(shù),我們可以先回顧一下近十年來NLP的重大的突破。

首先,在2013年谷歌提出word2vec這個word embedding之前,詞袋模型和TF-IDF有絕對的江湖地位。word2vec出現(xiàn)后,迅速席卷了整個NLP領(lǐng)域的各大任務(wù),一直到2018年BERT的出現(xiàn)。BERT的出現(xiàn)直接顛覆了NLP的研究格局,橫掃了NLP的各個領(lǐng)域。

我們可以發(fā)現(xiàn),包括word2vec,還有word embedding這種方式,以及BERT,它們都有一個共同的特點,就是預(yù)訓(xùn)練。word2vec這種word embedding方式,預(yù)訓(xùn)練的是語言模型,而BERT是結(jié)合了下游任務(wù)進行了預(yù)訓(xùn)練。至此,NLP領(lǐng)域出現(xiàn)了全新的解題范式:預(yù)訓(xùn)練加微調(diào)。

確實,預(yù)訓(xùn)練加微調(diào)給我們帶來很多的方便,它能夠使NLP工程師快速地入門,也就是說門檻變低了,能夠快速地實現(xiàn)算法的工程化。那么這種范式到底能夠走多遠(yuǎn)呢?它到底是否能夠解決所有的問題、所有的NLP任務(wù)呢?

我個人覺得,它暫時還解決不了所有的任務(wù)。

因為目前算法尤其是這種范式,在數(shù)據(jù)固定、場景固定的情況下,能取得很好的效果,但如果是放在一個稍微開放的情況下,它不見得能夠取得完整的效果。

另外,這種范式結(jié)合下游任務(wù),比如文本分類、智能問答,能夠取得很好的效果,但是對于NLP的一些基礎(chǔ)性的研究,比如中文分詞、新詞發(fā)現(xiàn),它不見得會取得那么好的結(jié)果。

同時,在這種范式下,有一個很重要的前提,就是基于海量的數(shù)據(jù)。我們也知道,在現(xiàn)實場景下,很多領(lǐng)域并不一定具有那么多的數(shù)據(jù)量,或者它的數(shù)據(jù)是離散的,并沒有集中到一起,那這個時候,采用這種范式去解決問題,并不見得會取得很好的效果。

明略科學(xué)院目前匯集了全來自于全球人工智能領(lǐng)域的五十多位科學(xué)家,其次,明略科技聚焦于場景、聚焦于技術(shù),然后由點及面。

在數(shù)據(jù)方面,我們積累了海量的數(shù)據(jù),同時明略科技深耕營銷、公安、金融等領(lǐng)域多年,每天有數(shù)十億的數(shù)據(jù)產(chǎn)生,來支撐我們基于深度學(xué)習(xí)的訓(xùn)練加微調(diào)。

另外,在技術(shù)廣度方面,明略科技也有自己的技術(shù)沉淀。首先,明略科技不止專注于應(yīng)用型的NLP研究,同時也專注于基礎(chǔ)型的NLP研究,比如說中文分詞、命名實體識別,因為每個領(lǐng)域它都有不同的詞需要我們?nèi)グl(fā)現(xiàn)。其次,明略科技將知識圖譜和深度學(xué)習(xí)進行有機結(jié)合,因為深度學(xué)習(xí)方法本身不太具有可解釋性,而知識圖譜是個白盒,它具有很好的可解釋性。因此,我們將深度學(xué)習(xí)和知識圖譜有機地結(jié)合起來,進行優(yōu)勢互補,我們叫“白加黑”,雙管齊下。我們的另外一個技術(shù)非常有代表性的一個技術(shù)特色是多模態(tài),我們將文本、語音、圖像進行有機結(jié)合,形成了我們的HAO模塊, HAO交互、HAO圖譜。

在技術(shù)深度這個角度,明略科技有自己的預(yù)訓(xùn)練模型。同時我們也專注于圖神經(jīng)網(wǎng)絡(luò)在NLP領(lǐng)域、在知識圖譜領(lǐng)域的應(yīng)用。

信息填寫

*手機號碼:

請選協(xié)議