close

9月底轟動業界的史上最強GAN,也就是最高動用512個TPU訓練的BigGAN,Demo已經正式放出!只要一台能上網的電腦,你就能用它生成各種各樣的逼真圖片。體會如何讓非洲鱷完美漸變成胖達~這意味著,不用花10-70萬元的費用租TPU親手訓練,只要打開DeepMind放出的地址,就可以體驗到親手支配BigGAN的感覺。BigGAN Demo體驗攻略DeepMind官方給出了128、256、512三種尺寸的Demo。不過無論你打開哪一個,Colab裡默認的都是256的Demo,其他尺寸要手動自行調整。預先設置打開之後,保證網絡已連接,然後把每個代碼塊挨個運行一遍。然後完成一系列設置,召喚TensorFlow。之後從TF Hub加載BigGAN模型。定義一些用於採樣和顯示BigGAN圖像的功能。創建TensorFlow會話,初始化變量。單樣本生成完成這些準備工作之後,我們就可以正式開始玩BigGAN了。界面上有4個設置選項,先看最後一個category,用來選擇生成的東西是什麼,下拉菜單裡一共有999個品種可供選擇,我們就用默認的933號品種芝士漢堡來試一下。前面的三個選項是生成的具體參數,第一個num_samples是生成漢堡的數量,可以從1~20的範圍內隨意調節。第二個truncation可以在0~1之間調整,數字越小,圖形越整齊劃一,造型保守;數字越大,圖形之間的差距越大,經常能生成完全和漢堡沒關係的圖像。第三個noise_seed,噪音種子,可以在0~100之間調節,這個數值越大,漢堡造型越狂野。Cheeseburger is laughing at U~物體漸變學會生成單只漢堡以後,就可以嘗試第二個功能:物體漸變,學名Interpolate between BigGAN samples.物體漸變嘛,顧名思義,把一個物體漸變成另一個物體。當然,因為涉及兩個物體,需要設置的內容也多了一些。我們先來選擇兩個物體:物體A(category_A):金毛狗。物體B(category_B):小金魚。兩個物體可以分別調整noise_seed。每個生成結果都長這樣,每一行是從金毛到金魚的漸變過程,行數則是樣本數量,也就是生成幾條漸變。開頭的第一個設置num_samples,就是“行數”,物體漸變條的數量,可以從1~5之間選擇;下一個設置選項num_interps指的是每個漸變過程的“幀數”,“幀數”越大,漸變過程越詳細,最小可以設置為2,最大可以到10;另外同樣可以設置truncation,和前面的單樣本生成一樣,truncation越大,不同樣本之間的差距就越大。好了,具體操作就這些,大家可以自行在文末尋找傳送門親自體驗~另外,還有熱心群眾做了一個gif版,可以自動把物體漸變的過程變成gif,效果大概就是下面這樣:同樣文末可找到傳送門。貴!貴!貴此Demo一出,國外人民紛紛發來賀電,有表示效果震驚的,有想玩拍手叫好的,也有……看餓了的。谷歌大腦東京研究員、推特知名科技網紅hardmaru就評價說,選擇用哪個GAN,怎麼跟從快餐漢堡菜單中點餐似的。推特網友-=CULLEN也表示生成的食物實在有些過於逼真,認認真真看個學術研究怎麼一下子就餓了。有網友認為BigGAN在設計行業潛力無窮,它的風格轉換以及材料和設計的多樣化組合對設計師具有指導意義。這位網友還抱著試一試的心態用Demo生成各種包,發現這個效果有點驚人啊。也有網友順勢而為,企圖再加一份飯。“恭喜!這項工作真的難以置信,很喜歡實驗中失敗圖像的細節……所以如果能放出代碼,社區會更加感謝。”網友elder_price666說。不過大哥留步,想訓練一個自己的BigGAN?請先三思能不能負擔起訓練需要消耗的資源啊。很可能就算官方給了TensorFlow實現和代碼,你也要不起啊!根據論文附錄中提供的細節,BigGAN是在TPU Pod上訓練出來的。訓練一個生成128×128圖像的BigGAN模型,要用128個Google TPU 核心。256×256、512×512模型需要的TPU核心數也相應上漲到了256個和512個。更驚悚的是,用了這麼多TPU的情況下,大部分模型還要訓練24到48小時,也就是要等上一兩天才能見到成品。按照Cloud TPU v2每TPU每小時4.5美元的價格來算,訓練一個基礎版128×128的BigGAN,也就是最最最低配的那個,需要1.38萬美元到2.76萬美元,折合人民幣9.6萬元到19.3萬元。至於512×512的高清大GAN,訓練費用最高可以達到11萬美元,合人民幣76萬元。Demo一出,大家紛紛嘗試樂在其中,在飯香濃郁的評論區裡異口同聲地說“這不是合成的,這簡直就是真的,但真的好貴啊”。論文回顧效果驚人也耗資巨大的BigGAN不是這兩天才火的,一個多月前,當搭載BigGAN的雙盲評審中的ICLR 2019論文現身,行家們就沸騰了:效果怎麼就這麼逼真了?在計算機圖像研究史上,BigGAN的效果比前人進步了一大截。比如在ImageNet上進行128×128分辨率的訓練後,它的Inception Score(IS)得分166.3,是之前最佳得分52.52分3倍。除了搞定128×128小圖之外,BigGAN還能直接在256×256、512×512的ImageNet數據上訓練,生成更讓人信服的樣本。在論文Large Scale GAN Training for High Fidelity Natural Image Synthesis中,研究人員揭秘,BIgGAN的驚人效果背後,真的付出了金錢的代價。因為不止是模型參數多,訓練規模也是有GAN以來最大的。它的參數是前人的2-4倍,批次大小是前人的8倍。研究人員對GAN架構做出了兩處改動適應大規模訓練的不穩定性,比如對判別器的通道類型做改動,讓每個模塊第一個卷積層裡的濾波器數量和輸出濾波器相等,比如生成器G用了單個共享類嵌入,為BatchNorm層生成每個樣本的增益和偏差。△生成器和鑑別器架構評審結果BigGAN評審結果已經放出,獲得了三位評審8分、7分和10分的評價,目前以8.45分位居ICLR2019兩百篇論文的前5位。在OpenReview上,審稿人對這篇論文有以下幾點類似的看法:1)BigGAN在大規模數據集、大尺寸文件上有不錯的表現。 2)附錄中提到了一些負面的結果,這給未來的改進工作提供了幫助。 3)文章對大型模型的截斷技巧缺乏清晰的、易於理解的討論。3位評審者評價如下:評審1:評分:8,接受論文的top 50%,明確接受。 信心:4,審稿人有信心,但並不絕對肯定評估是正確的。本文提出了一套用於訓練大規模GAN的技巧,並獲得了高分辨率圖像的最新結果。優點: -提出的技術直觀且目的非常明確 -這項工作的一大優點是,作者試圖通過訓練速度和性能改進來“量化”提出的每一種技術 -探測崩潰的詳細分析,提高了大規模GAN的穩定性 -試驗結果令人印象深刻缺點: -所需的計算預算資源巨大。BigGAN原論文提到的模型使用了128-256個TPU,嚴重限制了結果的可重複性。總結: 論文寫得很好,思想很合理,結果非常引人注目。這是一篇很好的論文,強烈建議接受。評審2:評分:7,好文章,接受。 信心:3,評審員對評估是否正確非常有信心。作者提出提出了將GAN擴展到復雜數據集(如ImageNet)方法的實證研究,用於類條件圖像生成。他們首先根據最近提出的GAN技術構建並描述一個強大的baseline,推動大型數據集的性能,獲得了領先的IS / FID分數,以及令人印象深刻的視覺效果。作者提出了一個簡單的截斷技巧來控制保真度/方差,它本身很有趣,但不能隨著體系結構進行擴展。作者進一步提出了基於正交化的正則化來緩解這個問題。作者還進行了大規模訓練崩潰的調查,根據收集的經驗證據研究了一些正則化方案。優點: -文章提供了大量關於GAN穩定性和在大規模訓練數據集下性能的深入見解。這對於在復雜數據集上使用GAN、並且可以訪問大量計算資源的任何人都應該是有用的。-儘管GAN的常用評估指標仍然不夠充分,但作者獲得的量化表現遠遠超出以前的工作,這似乎確實與顯著的視覺效果相關。-基線增加修改被很好地描述和清晰地解釋。附錄在這方面也具有重要價值。缺點: -討論有時缺乏深度。 我不清楚為什麼一些較大的模型不適合截斷。作者提出了更寬的網絡如何表現最佳,以及網絡的深度如何降低性能。這一點同樣缺乏討論,作者似乎並沒有試圖理解為什麼會出現這樣的現象。我認為應該更努力去理解和解釋為什麼會出現其中一些現象,它可以更容易地指引未來的工作。-第3.1節:“在表1中,我們觀察到沒有正交正則化,只有16%的模型適合截斷,而正交正則化則為60%。”對於我來說,這一點並不是特別清楚。這是讀者應該從表1中理解的東西嗎?-我質疑正文和附錄中選擇的部分。我非常感謝正文和附錄中報告的負面結果,這具有重要價值。然而,這篇文章對我來說主要是一個詳細的實證調查和大規模高性能GAN的介紹,我可能會與想要解決類似問題的同事分享這一點。在這種情況下,如果未來的讀者僅限於文本,我認為提供附錄B和C中的一些內容比擁有超過一整頁的穩定性調查和未完成的嘗試技巧更有價值。總結:文章對GAN可擴展性的研究取得成功,即使在不犧牲ImageNet的高性能的情況下無法穩定訓練令人失望。對以前的SOTA的改進絕對是重要的。這項工作展示了複雜數據集的現代GAN架構,可以成為未來工作的堅實基礎。但是我認為文章可以而且應該通過對錶現行為進行更詳細的分析和討論,來改進論文,以便進一步指導和激勵未來的工作。我也很想看到所提出的技術應用於更簡單的數據集。這對於計算能力較低且與CelebA類似的人會有用嗎?評審3:評級:10,接受論文的top 5%,開創性論文 信心:4,審稿人有信心,但並不絕對肯定評估是正確的本文的核心新元素是截斷技巧:在訓練時,輸入z從正態分佈中採樣,但在測試時,使用截斷的正態分佈:當z的元素的大小高於某個閾值時,將被重新採樣。如實驗所示,該閾值的變化導致FD和IS的變化。文章包含負面結果和詳細的參數清掃,這一點也很好。總結:這是一項非常好的工作,取得了令人矚目的成果,在圖像生成領域取得了巨大的進步。傳送門本文經授權發布,不代表36氪立場。 如若轉載請註明出處。來源出處:36氪


文章轉貼如有侵權請告知我們會立即刪除
. . . . .
arrow
arrow
    全站熱搜

    ly49lywozn 發表在 痞客邦 留言(0) 人氣()