網(wǎng)上有很多關(guān)于pos機(jī)中文,中文預(yù)訓(xùn)練模型ZEN開源的知識,也有很多人為大家解答關(guān)于pos機(jī)中文的問題,今天pos機(jī)之家(m.dsth100338.com)為大家整理了關(guān)于這方面的知識,讓我們一起來看下吧!
本文目錄一覽:
pos機(jī)中文
允中 發(fā)自 凹非寺 量子位 報(bào)道 | 公眾號 QbitAI改進(jìn)策略簡單有效、收斂速度快,同時小數(shù)據(jù)效果出色。
這就是中文預(yù)訓(xùn)練模型ZEN。
在中文任務(wù)中,ZEN不僅性能優(yōu)于BERT,也比之前中文預(yù)訓(xùn)練模型更好。
可以說是目前全球中文領(lǐng)域最佳預(yù)訓(xùn)練模型。
而且現(xiàn)在,ZEN開源了。源代碼和訓(xùn)練好的模型均已發(fā)布,未來還承諾會有更大數(shù)據(jù)和其他語言版本迭代上新。
詳情我們展開往下說。
ZEN因何而生隨著BERT(Devlin et al., 2018)等一系列預(yù)訓(xùn)練模型的出現(xiàn),該類型上下文相關(guān)表征方法受到了自然語言處理領(lǐng)域持續(xù)大范圍的關(guān)注。
這些預(yù)訓(xùn)練模型帶來的好處是顯而易見:
一方面,它們可以利用大規(guī)模無標(biāo)注純文本語料進(jìn)行學(xué)習(xí);
另一方面,它們是對于文本的有效表征,并且大量實(shí)驗(yàn)表明,基于預(yù)訓(xùn)練模型的各類NLP模型相比于以前的方法能帶來巨大的性能提升。
一般來說,預(yù)訓(xùn)練模型研究通常分為兩個步驟:第一步是預(yù)訓(xùn)練 (pre-training),第二步是微調(diào)整 (fine-tune)。
其中,預(yù)訓(xùn)練是指通過在大規(guī)模無標(biāo)注的語料上進(jìn)行無監(jiān)督訓(xùn)練,來學(xué)習(xí)通用的語言表達(dá)和上下文行文特點(diǎn)。
微調(diào)整指在特定的任務(wù)上,再次利用任務(wù)數(shù)據(jù)訓(xùn)練和調(diào)整預(yù)訓(xùn)練模型參數(shù)的過程。
目前,大多數(shù)中文預(yù)訓(xùn)練模型基本上沿用了英文模型的做法,聚焦于小顆粒度文本單元(字)的輸入。
然而,與英文相比,中文沒有空格等明確的詞語邊界。
這個特點(diǎn)使得很多文本表達(dá)中存在的交叉歧義也被帶入了以字為序列的文本編碼中,使得模型更難從單字的序列中學(xué)習(xí)到大顆粒度文本蘊(yùn)含的語義信息,例如雙字或者多字詞的整體含義等。
雖然通過大規(guī)模文本建??梢砸欢ǔ潭壬蠀^(qū)分不同上下文環(huán)境的語義,但是依然沒有充分并顯式地利用預(yù)訓(xùn)練和微調(diào)整語料中經(jīng)常出現(xiàn)的詞、短語、實(shí)體等更大顆粒度的信息。
目前很多模型的解決方法依然是遵循傳統(tǒng)BERT模型的遮蓋(masking)策略,例如采用多層(詞,短語等)遮蓋策略來彌補(bǔ)這一缺陷。
然而遮蓋策略依然只是一種弱監(jiān)督學(xué)習(xí)方法,用于學(xué)習(xí)詞邊界信息含有諸多問題:
第一,信息的質(zhì)量無法得到保證,例如BERT-wwm(Cui et al., 2019)的效果依賴于外部中文分詞的質(zhì)量;第二,因?yàn)榛谡谏w方式訓(xùn)練存在一個基礎(chǔ)難題,即遮蓋過程在訓(xùn)練中存在,但是在測試過程中并不存在,因此直接利用遮蓋方式學(xué)習(xí)的詞和短語信息會導(dǎo)致訓(xùn)練和測試過程的不匹配。因此,如果能夠有效集成大顆粒度文本的信息,并且在訓(xùn)練和測試過程中顯式地加入這樣的信息將有助于提升模型的表征能力。
于是,基于BERT的n-gram增強(qiáng)中文文本編碼器ZEN,由此而生。
它可以顯式地結(jié)合潛在詞語的邊界信息來幫助模型更好地對文本進(jìn)行表征。ZEN有兩大優(yōu)勢:
簡單有效。從數(shù)據(jù)上看,與其他模型引入更多數(shù)據(jù)不同,ZEN僅僅基于中文維基百科進(jìn)行訓(xùn)練。
ZEN不需要更多的數(shù)據(jù)集,但是卻顯示出了與其他模型相當(dāng)?shù)男Ч?。從模型上看,引入n-gram編碼器的方式簡單靈活,不需要其他繁雜的預(yù)訓(xùn)練優(yōu)化方式。
收斂迅速。因?yàn)槟P徒Y(jié)構(gòu)簡單,實(shí)驗(yàn)表明相比于原生BERT,ZEN模型收斂速度明顯提高,在更短的時間內(nèi)取得了更好的效果。這對于資源緊張的研究人員來講,無疑是一個好消息。
另外,在涵蓋詞匯級和句子級兩個層級的七大經(jīng)典中文語言處理任務(wù)中——包括中文分詞(CWS),詞性標(biāo)注(POS),命名實(shí)體識別(NER),文本分類(DC),情感分類(SA),語義匹配(SPM),自然語言推理(NLI),ZEN在七個下游任務(wù)上都帶來了顯著的提升。同時本文還在小規(guī)模數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),模擬了只有少量預(yù)訓(xùn)練數(shù)據(jù)語料的場景。
而且ZEN如此效果,也展示了未來應(yīng)用到其他文本受限領(lǐng)域的潛力,比如醫(yī)療。
同時,該研究中加入大顆粒度文本的方式是一種通用的增強(qiáng)方式,未來可在中文之外的其他語言上也得到應(yīng)用。
具體模型ZEN的模型架構(gòu)如圖所示:
△ZEN 模型架構(gòu)圖
N-gram 抽取
首先,利用已有的預(yù)訓(xùn)練語料,基于頻率來抽取n-gram,構(gòu)造n-gram 詞匯表(lexicon)。
其次,模型在將單字的序列作為輸入的同時,也將出現(xiàn)的n-gram作為輸入標(biāo)記。利用已有的詞匯表,對預(yù)訓(xùn)練數(shù)據(jù)中的每一個輸入,抽取句中出現(xiàn)的n-gram。
N-gram 編碼
給定一個輸入句子相應(yīng)的多個n-gram,本文利用了一個6層的transformer結(jié)構(gòu)作為n-gram encoder,來對輸入的n-gram提取特征進(jìn)行編碼。n-gram的嵌入向量經(jīng)過n-gram encoder,得到n-gram的表示。
有了n-gram的表示之后,ZEN將字(Character)的表示與每個字對應(yīng)的n-gram向量表示結(jié)合起來,在輸出端相加,并一起被輸入至后續(xù)結(jié)構(gòu)之中。
結(jié)合n-gram和字編碼的預(yù)訓(xùn)練
如圖1所示,輸入的帶n-gram標(biāo)記的句子首先會經(jīng)過嵌入層 (Embedding Layer)。在這一層里,每個輸入的單字和n-gram會被替換成嵌入矩陣中對應(yīng)位置的向量。
與此同時,每個向量會被加上一個Positional Encoding,用來表示其在句子之中出現(xiàn)的位置。
之后,字的嵌入向量會被輸入Character Encoder,進(jìn)行計(jì)算并得到每個字在這一層的向量表達(dá)。
與此同時,n-gram的嵌入向量會被輸入n-gram encoder。兩部分輸出會被同時輸入attention encoder。
模型的最末端會被接入全連接層和Softmax層結(jié)構(gòu)來幫助完成預(yù)訓(xùn)練。
實(shí)驗(yàn)結(jié)果
如上圖,ZEN的總體性能及其與現(xiàn)有模型在七項(xiàng)NLP任務(wù)上的比較情況。
文章對BERT和ZEN兩個模型分別實(shí)現(xiàn)了兩組設(shè)置:R(隨機(jī)初始化) 和 P(基于谷歌開源的BERT中文模型進(jìn)行初始化)。
實(shí)驗(yàn)結(jié)果表明,在兩組設(shè)置上,ZEN都取得了比BERT更好的性能。
同時,ZEN與現(xiàn)有的其他模型在七個任務(wù)上進(jìn)行了比較,ZEN取得了包括CWS、POS、NER、DC、SPM在內(nèi)的五個任務(wù)上最好的結(jié)果。
在僅僅利用中文維基百科,沒有其他語料的前提下,在情感分類和自然語言推理任務(wù)上也達(dá)到了相當(dāng)不錯的表現(xiàn)。
分析討論小數(shù)據(jù)集潛力
除了以上實(shí)驗(yàn),該研究還探究了模型在小數(shù)據(jù)集上的潛力。
考慮到目前的預(yù)訓(xùn)練模型使用了大型的訓(xùn)練語料,但是對于很多特殊的領(lǐng)域,大型數(shù)據(jù)集很難獲取。
因此本文抽出1/10的中文維基百科語料,來模擬了一種語料有限的場景,目的是探究ZEN在小數(shù)據(jù)集上的潛力。
實(shí)驗(yàn)結(jié)果如下圖所示,在全部七個任務(wù)上,ZEN都明顯優(yōu)于BERT。這表明ZEN在數(shù)據(jù)有限的場景下,具有更大的潛力。
△BERT和ZEN利用小語料訓(xùn)練, 在七項(xiàng)NLP任務(wù)上的表現(xiàn)
收斂速度
中文分詞和情感分類兩個任務(wù)被用于該分析的探測任務(wù),來探究BERT與ZEN的收斂速度造成在這些任務(wù)上性能的差異。
兩個任務(wù)上的實(shí)驗(yàn)都表明,ZEN可以在更少的迭代次數(shù)情況下達(dá)到更高的性能。
如上圖,BERT與ZEN在中文分詞任務(wù)(左圖)和情感分類任務(wù)(右圖)收斂速度的比較情況。
熱圖分析
通過熱度圖,還通過實(shí)驗(yàn)分析了兩個案例,將n-gram encoder的注意力機(jī)制可視化出來。
通過熱度圖可以清晰地看到,注意力會更多的關(guān)注在有效的n-gram。比如“波士頓”的權(quán)重明顯高于“士頓”。對于有劃分歧義的句子,n-gram encoder可以正確的關(guān)注到“速度”而不是“高速”。
更加有趣的是,在不同層次的encoder關(guān)注的n-gram也不同。更高層的encoder對于“提高速度”和“波士頓咨詢”這樣更長的有效n-gram分配了更多的權(quán)重。
這表明,結(jié)合n-gram的方法的預(yù)訓(xùn)練,不僅僅提供給文本編碼器更強(qiáng)大的文本表征能力,甚至還間接產(chǎn)生了一種文本分析的有效方法。這個案例分析暗示我們,或許將來可以用類似地方法提供無指導(dǎo)的文本抽取和挖掘
△案例分析-熱度圖
結(jié)語所以通過研究解析,也可以看出,ZEN對高概率成詞的n-gram添加了獨(dú)有的編碼和向量表示,此模型可以提供更強(qiáng)的文本的編碼能力和理解能力。
在多個中文自然語言任務(wù)之上都有比基于單字的語言模型有更好的表現(xiàn)效果。
與之前的中文預(yù)訓(xùn)練模型相比,ZEN的優(yōu)勢在于提出的改進(jìn)策略簡單有效并且收斂速度快,同時在有限語料的基礎(chǔ)上可以達(dá)到更大規(guī)模語料的訓(xùn)練效果。
相比于大多數(shù)已有研究對預(yù)訓(xùn)練策略的改進(jìn),ZEN是為數(shù)不多的對預(yù)訓(xùn)練模型架構(gòu)進(jìn)行了改進(jìn)的工作。
這也帶來更進(jìn)一步的啟示,可以深度探索已有模型的內(nèi)部機(jī)制,進(jìn)一步分析文本及其表征模型中蘊(yùn)含的Zen——禪意。
作者最后,簡單介紹下ZEN模型背后的團(tuán)隊(duì)。
這是創(chuàng)新工場AI工程院和香港科技大學(xué)的聯(lián)合研究。
或許對于VC身份的創(chuàng)新工場你已熟悉,但如此深入開展科研和前沿技術(shù)開源的創(chuàng)新工場旗下組織,你可能還不那么熟悉。
創(chuàng)新工場AI工程院成立于2016年9月,以“科研+工程實(shí)驗(yàn)室”模式,規(guī)劃研發(fā)方向發(fā)展。
而且這也不是創(chuàng)新工場AI工程院首次成果展示,光2019年,其聯(lián)合國內(nèi)外科研高校,就有過8篇頂會論文研究披露。
包含NeurIPS 2019、ICCV、IROS、EMNLP、IEEE TVCG等在內(nèi)的頂會和頂級期刊,均有創(chuàng)新工場AI工程院的身影。
此外值得一體的是,今年創(chuàng)新工場AI工程院還有一篇區(qū)塊鏈技術(shù)論文入選計(jì)算機(jī)網(wǎng)絡(luò)頂級學(xué)術(shù)會議NSDI,這是國際主流學(xué)術(shù)界首次認(rèn)可區(qū)塊鏈擴(kuò)容方案的相關(guān)研究,是該會議今年錄取的唯一一篇與區(qū)塊鏈相關(guān)的論文。
創(chuàng)新工場也積極參與了國際相關(guān)的技術(shù)標(biāo)準(zhǔn)制定工作。例如,今年8月,第28屆國際人工智能聯(lián)合會議(IJCAI)在中國澳門隆重舉辦,期間召開了IEEE P3652.1(聯(lián)邦學(xué)習(xí)基礎(chǔ)架構(gòu)與應(yīng)用)標(biāo)準(zhǔn)工作組第三次會議。
領(lǐng)軍人才方面,香港科技大學(xué)教授、前騰訊AI Lab主任張潼目前是創(chuàng)新工場科研合伙人、創(chuàng)新工場大灣區(qū)AI研究院名譽(yù)院長。
香港科技大學(xué)也是創(chuàng)新工場的重要合作機(jī)構(gòu)之一,今年3月20日,香港科技大學(xué)和創(chuàng)新工場還聯(lián)合宣布成立計(jì)算機(jī)感知與智能控制聯(lián)合實(shí)驗(yàn)室(Computer Perception and Intelligent Control Lab)。
按照官方披露,目前創(chuàng)新工場AI工程院設(shè)有醫(yī)療AI、機(jī)器人、機(jī)器學(xué)習(xí)理論、計(jì)算金融、計(jì)算機(jī)感知等面向前沿科技與應(yīng)用方向的研發(fā)實(shí)驗(yàn)室,還先后設(shè)立了創(chuàng)新工場南京國際人工智能研究院、創(chuàng)新工場大灣區(qū)人工智能研究院。
目標(biāo)是培養(yǎng)人工智能高端科研與工程人才,研發(fā)以機(jī)器學(xué)習(xí)為核心的前沿人工智能技術(shù),并同各行業(yè)領(lǐng)域相結(jié)合,為行業(yè)場景提供一流的產(chǎn)品和解決方案。
所以怎么說呢?在新技術(shù)周期時代,創(chuàng)新工場可能是全世界最硬核、最愿意為技術(shù)研發(fā)投入的投資機(jī)構(gòu)了。
此次開源的中文預(yù)訓(xùn)練模型ZEN,就是一個更好的開始。
對于學(xué)術(shù)科研領(lǐng)域來說,有錢有心的投資機(jī)構(gòu)們愿意參與推動這樣的技術(shù)進(jìn)步,再好不過啦。
傳送門ZEN開源地址:
https://github.com/sinovation/zen
論文地址:
http://arxiv.org/abs/1911.00720
— 完 —
量子位 QbitAI · 頭條號簽約
關(guān)注我們,第一時間獲知前沿科技動態(tài)
以上就是關(guān)于pos機(jī)中文,中文預(yù)訓(xùn)練模型ZEN開源的知識,后面我們會繼續(xù)為大家整理關(guān)于pos機(jī)中文的知識,希望能夠幫助到大家!
