北京業余足球隊| CCL 2019 參會小結與心得分享 原創-

作者:RUC AI Box  來源/微信公眾號:rucaibox  發布日期:2019-10-26

導讀第十八屆中國計算語言學大會(CCL 2019)于10月18日至20日在昆明舉辦。中國計算語言學大會創辦于1991年,經過20多年的發展,中國計算語言學大會已成為國內自然語言處理領域權威性最高、規模和影響最大的學術會議。CCL 聚焦于中國境內各類語言的智能計算和信息處理,為研討和傳播計算語言學最新學術和技術成果提供了最廣泛的高層次交流平臺。本篇文章是RUC AI Box小組成員分享了他們參加今年CCL 2019會議的感想和總結。本文介紹了CCL前沿技術講習班、學生研討會、國內外專家特邀報告和 NLP 國際前沿綜述的內容,并發表參會感受。歡迎大家留言與我們交流。
作者:
范欣妍,中國人民大學信息學院2016級本科生,研究方向推薦系統。
侯宇蓬,中國人民大學信息學院2016級本科生,研究方向網絡表示學習。
前沿技術講習班1
生成對抗網絡「邱錫鵬」
第一場報告是由復旦大學的邱錫鵬老師帶來的,主要講述了生成對抗網絡的基本原理和最新研究進展。他從“生成模型”、“生成對抗網絡”、“模型分析”、“Wasserstein GAN”、“GAN的擴展”和“序列生成”這幾個方面對GAN進行深入分析。
首先,在生成模型中,傳統生成模型主要分為密度估計和采樣兩個步驟,但在實際場景中,這兩步很難計算。另一種方向是先進行采樣,對采樣的數據通過一個“萬能轉換器”盡可能映射成為真實樣本,這個萬能轉換器就是生成網絡的思想。如何北京業余足球隊判斷萬能轉換器的輸出和真實樣本來自同一分布,這就產生了判斷網絡。
完整定義:生成對抗網絡(Generative AdversarialNetwork,GAN)是非監督式學習的一種生成模型,其由一個生成網絡與一個判別網絡組成,通過讓兩個神經網絡相互博弈的方式進行學習。生成網絡從潛在空間( latentspace)中隨機取樣作為輸入,其輸出結果需要盡量模仿訓練集中的真實樣本。判別網絡的輸入則為真實樣本或生成網絡的輸出,其目的是將生成網絡的輸出從真實樣本中盡可能分辨出來。而生成網絡則要盡可能地欺騙判別網絡。兩個網絡相互對抗、不斷調整參數,最終目的是使判別網絡無法判斷生成網絡的輸出結果是否真實。
但是,GAN模型中存在兩個問題:不穩定性(生成網絡的梯度消失)和模型坍塌(生成的數據多樣性差)。改進方式有兩種:弱化判別器或使用更好的損失函數。一個較好的模型是Wasserstein GAN,它采用了Wasserstein距離來衡量兩個分布之間的距離,很好的解決了梯度消失問題。
最后,報告提到了GAN的一些擴展,比如Conditional GAN、InfoGAN、AC-GAN、BiGAN等。在NLP領域,使用GAN可以進行序列生成,如使用強化學習的SeqGAN等。
2
網絡嵌入和圖神經網絡前沿「崔鵬」
第二場報告由清華大學的崔鵬老師帶來,主要講述近年來網絡嵌入(Network Embedding)和圖卷積神經網絡(GCN)的前沿研究。
崔鵬老師從“圖”這一離散數據結構在現實生活中的多項重要應用(如社交網絡分析、生物大分子預測等)入手,表明圖研究的實用性和必要性。接下來主要介紹網絡嵌入,并將其與圖卷積神經網絡進行對比分析。
網絡嵌入是指為離散圖中的各個節點分別學習一個低維向量空間中的表示。這個向量表示維護了原圖中的某些性質,從而可以在處理下游任務時被應用于機器學習/深度學習模型中。崔鵬老師對網絡嵌入部分的介紹分三部分:維護網絡結構的網絡嵌入、維護相似性的網絡嵌入和動態網絡的嵌入。
網絡嵌入與新興的圖卷積神經網絡在研究角度上有所區別。一方面,圖卷積神經網絡的研究更傾向于數學中廣義上的“圖”,而網絡嵌入的研究更關心現實世界中的真實網絡結構,他們往往有power-law等特殊拓撲性質;另一方面,圖卷積神經網絡更傾向于Learning Via Graph,而網絡嵌入更偏向 Learning For Graph。
總結下來,崔鵬老師認為在面對一個和圖/網絡相關的任務時,研究人員需要考察任務的性質。面對拓撲結構驅動的任務時,可能網絡嵌入會取得更好的效果;而對于節點特征起主導作用的任務,圖神經網絡往往能起到更好的作用。“沒有更好的方法,只有更適合的方法。”
3
預訓練模型「車萬翔」
第三場報告是由哈工大車萬翔老師帶來的。他首先介紹預訓練模型的演化過程,接著介紹了預訓練模型在應用方面的最新研究進展,另外還列舉了一些對預訓練模型進行定性和定量分析的工作,最后對自然語言處理中預訓練模型的發展趨勢進行了展望。
傳統的有監督自然語言處理模型依賴大規模的人工標注訓練數據,這些數據標注代價非常高,因此規模有限,這也限制了自然語言處理系統進一步提升精度。以Word2vec,GloVe等為代表的詞向量技術可以視為一種早期的預訓練模型,從大規模未標注文本中預訓練的詞向量,在一定程度上提高了上層模型的精度。
然而,這些模型假設“一個詞由唯一的向量表示”,忽略了它們在不同上下文下的差異,例如Apple既可以指水果,也可以指蘋果公司。以ELMo為代表的上下文相關詞向量模型取消了以上的假設,在不同的上下文環境下,賦予相同的詞以不同的詞向量,因此又被稱為“動態”詞向量。
BERT等模型的出現開啟了NLP領域進行預訓練的時代,通過進一步使用更深層的網絡進行預訓練,并使用了語言模型之外的預訓練目標,在應用模式上也從簡單的特征提取轉換為精調整個網絡結構。如今基于BERT的改進方法可分為“使用其他預訓練目標”“融入知識圖譜”“更精細調參”“解決輸入不一致”“對模型壓縮與加速”“跨語言與跨模態”。
總結:以BERT為代表的預訓練模型在眾多自然語言處理仼務上取得了很好的效果,BERT也啟發了越來越多的預訓練模型,已成為自然語言處理的新范式。
4文本生成「張家俊」
講習班最后一場報告由中科院自動化所張家俊老師帶來,主要從“句子的雙向交互”和“多任務之間的交互”兩方面,結合組內工作,介紹文本生成方向近幾年的前沿探索。
受BERT等雙向自回歸模型的啟發,在機器翻譯任務上,解碼器往往只考慮當前已翻譯的詞,即在解碼器層面只關注了單向信息。張家俊老師分享了他們組在ACL 2019和IJCAI2019上發表的兩篇北京業余足球隊工作,均使用雙向解碼提升了翻譯性能。
不同語言擁有著不同的語法結構,如不同于我們熟悉的漢語/英語的“主謂賓”結構,日語在表達相同含義句子的時候是采用“主賓謂”結構的。通過多種語言翻譯的多任務學習,可以在各語言上均得到效果提升。另一方面,也可以結合視頻/音頻/圖片進行多模態學習,也可以提升句子生成的效果。學生研討會1
如何做一個北京業余足球隊精彩的學術報告「車萬翔」
哈爾濱工業大學的車萬翔老師首先身體力行地示范了“如何做一個精彩的學術報告”。車老師循循善誘,以問題的方式帶領觀眾進行思考“做報告的目的是展示技術細節嗎?”、“聽眾有你所在領域的基礎知識嗎?”,最終向大家分享他對學術報告的理解——關鍵是引起聽眾對你工作的興趣。歸納出核心目的后,車萬翔老師圍繞幻燈片設計、時間分配、演講者的情緒等方面進行了具體的闡述。
2
做失敗科研的10個方法「劉康、韓先培」
“成功的科研都是相似的,失敗的科研各有各的失敗。成功科研方法讓你仰望星空,失敗科研方法讓你在仰望星空的時候避免掉入水坑。如果成功的科研是可以學習的,那幺正例讓你發更多的好論文(Recall),但是也需要很多負例讓你用更少的投稿發出更多的好論文(Precision),少走彎路,優化目標是尋找最優的F值。”
來自中科院的劉康、韓先培博士從全新的角度出發,用幽默的語言為我們講了科研經歷中遇到過、看到過、聽到過的失敗科研方法,包括失敗科研的哲學、心態、理念、方法、技術和工具,對剛踏入科研的小白有很大的指導意義。
隨后來自北京大學的許晶晶和清華大學的韓旭也分別結合自己工作,分享了學術道路上的心得體會,引起在座聽眾的共鳴。
特邀報告
第一場報告邀請了京東AI研究院常務副院長何曉冬博士,他基于近年來深度學習技術對語音、語言、視覺等子領域的推動,介紹了在語言和視覺跨模態交叉學科領域他們取得的新進展,包括跨語言與圖像的理解、推理和生成,并且對多模態智能未來的突破進行了展望。
第二場報告由浙江大學計算機學院副院長陳為教授帶來的,介紹了面向宋文化數據(宋詞、哈佛大學CBDB數據庫等)的可視化作品與系統,以技術、設計、文化三者角度介紹了課題組在面向唐詩末詞文化大數據的可視化和可視分析的作品和軟件。
第三場報告由烏鎮智庫理事長、《人工智能簡史》作者張曉東講述了人工智能的歷史和未來。他從理論計算機科學的角度分析人工智能學術發展的幾條主線,例如邏輯主義、聯結主義和自然主義。同時定量地看待自1980年代以來全球人工智能的產業變化,包括投資、創業等,并探討人工智能技術的落地應用及其影響。
在第四場報告中,帝國理工教授郭毅可提到目前深度神經網絡需要大量的高質量標注的訓練數據,在醫學圖像領域由于代價昂貴是不可用的。他介紹了一種基于DNN當前狀態主動擴展和更新訓練數據集的有效訓練代表性數據樣本生成的boosting策略,用很少數據集可達到很好效果。這種思想在NLP領域也值得借鑒。
來自UIUC的季姮教授在最后一場報告中提到人寫歷史很難保持完整性,且容易帶入感情傾向。是否可以用機器代替人類,在廣泛的新聞中提取有效信息組成歷史書,是一個新的課題。自然語言處理國際前沿綜述
這部分是CCL的特色環節,每年都會請到活躍在科研一線的業界知名青年學者,對各自深耕的領域進行分享。按演講順序分別為:上海科技大學的屠可偉(句法分析)、中科院自動化所的陳玉博(信息抽取)、山東大學的任昭春(信息檢索)、中科院計算所的馮洋(機器翻譯)、北京大學的嚴睿(人機對話)、哈爾濱工業大學的丁效(社交媒體)、復旦大學的魏忠鈺(多模態)和西湖大學的張岳(表示學習)。
青年學者們結合近幾年頂級會議上論文的投稿與錄用篇數,闡述領域近幾年的發展情況。再結合近幾年嶄新的相關工作,表面該領域的研究方向具體有哪些。最后給出仍需解決的問題并進行展望。
總結
三天充實的會議行程轉瞬即逝,作為中國計算語言學的盛會,CCL不負使命,為參會者呈現了一場精彩紛呈的學術盛宴。CCL具有其自身的特色,對國內NLP和語言學學者來說是一個非常好的近距離、高密度接觸國際前沿研究的平臺。作為中國計算語言學的頭號會議,希望CCL可以孕育、激勵更多的國內優秀學者。也希望會有更多的優秀科研人才聚集于此,為國內計算語言學的發展添磚加瓦。
部分講習班講義、評測報告和前沿綜述的PPT已公布于CCL2019官網:http://www.cips-cl.org/static/CCL2019/index.html,也可點擊「查看原文」,歡迎大家下載!
本期作者:范欣妍、侯宇蓬
本期編輯:侯宇蓬
掃描下方二維碼

關注RUC AI Box微信公眾號,獲取更多精彩內容

青海福彩快3开奖结果