AI進(jìn)軍藝術界 去繪畫的它會(huì)像人類那樣(yàng)思考嗎?
2017-06-19
《大西洋月刊》(The Atlantic)撰文稱,人類最早在岩石上畫圖形的時(shí)候,實現了巨大的認知躍進(jìn)——如今,計算機也在學(xué)習做同樣(yàng)的事(shì)情。要是谷歌教導AI去繪畫,那會(huì)有助于它思考以及像人類那樣(yàng)思考嗎?
以下是文章主要内容:
想象一下,有人叫(jiào)你畫一頭豬和一輛卡車。你可能(néng)會(huì)畫成(chéng)這(zhè)樣(yàng):
這(zhè)很簡單。但接著(zhe),想象下你被(bèi)要求畫個豬卡車。作為人類,你會(huì)直觀地想到(dào)如何將(jiāng)豬和卡車這(zhè)兩(liǎng)個物體的特征結合起(qǐ)來,也許你會(huì)畫成(chéng)下面(miàn)這(zhè)樣(yàng):
看看那條小小的、彎曲的豬尾巴,看看駕駛室有點圓的窗口,該窗口也會(huì)讓你想到(dào)眼睛。車輪變成(chéng)了蹄狀,又或者說(shuō)豬腳變得像車輪。如果你這(zhè)麼(me)畫,同為人類的我會(huì)主觀地認為這(zhè)是對(duì)“豬卡車”很有創意的一種(zhǒng)解讀。
谷歌的AI 繪畫系統SketchRNN
直到(dào)最近,隻有人類能(néng)夠完成(chéng)這(zhè)種(zhǒng)概念轉變,但現在并不隻有人類能(néng)夠做到(dào)了。該豬卡車實際上是極具吸引力的人工智能(néng)系統SketchRNN輸出的作品,該系統是谷歌探究AI能(néng)否創作藝術的新項目的一部分。該項目名為Project Magenta,由道(dào)格·艾克(Doug Eck)領導。
上周,我在谷歌大腦(Google Brain)團隊位于山景城的辦公室拜訪了艾克。該辦公室也是Magenta項目的所在地。艾克非常聰明,也很謙遜。他于2000年在印第安納大學(xué)獲得計算機科學(xué)博士學(xué)位,後(hòu)來專注于研究音樂和機器學(xué)習技術,一開(kāi)始是在蒙特利爾大學(xué)(人工智能(néng)的溫床)擔任教授,後(hòu)來到(dào)谷歌供職。在谷歌,他最初從事(shì)Google Music音樂服務項目,後(hòu)來轉到(dào)谷歌大腦團隊參與Magenta項目。
據艾克說(shuō),他打造可創作藝術的AI工具的雄心最初隻是誇誇其談,“但經(jīng)過(guò)幾輪的反複思考後(hòu),我覺得,‘我們當然需要做這(zhè)個,這(zhè)非常重要。’”
正如他和他的同事(shì)大衛·哈(David Ha)所寫到(dào)的,SketchRNN的意義不僅僅在于學(xué)習如何畫畫,而在于“用類似于人類的方式概括歸納抽象的概念。”他們并不想要打造一台能(néng)夠畫豬的機器。他們想要打造一台能(néng)夠識别和輸出“豬的特征”的機器,即便機器得到(dào)的是諸如卡車的提示性語言,它也能(néng)夠不受影響,作出準确的判斷。
隐含的觀點是,當人的畫畫的時(shí)候,他們會(huì)對(duì)這(zhè)個世界做抽象的概念。他們會(huì)去畫“豬”的廣義概念,而不是畫特定的動物。也就(jiù)是說(shuō),我們的大腦如何存儲“豬的特征”信息和我們如何畫豬之間存在關聯性。學(xué)習如何畫豬,你可能(néng)就(jiù)能(néng)學(xué)到(dào)人腦合成(chéng)豬的特征的能(néng)力。
這(zhè)是谷歌的AI軟件的運作模式。谷歌開(kāi)發(fā)了一款名為“Quick, Draw!”的遊戲,在人們玩該款遊戲時(shí),它會(huì)生成(chéng)一個涵蓋人類各種(zhǒng)各樣(yàng)的繪圖(如豬、雨、救火車、瑜伽動作、花園和貓頭鷹)的龐大數據庫。
當我們畫的時(shí)候,我們是將(jiāng)豐富多彩、熙熙攘攘的世界壓縮成(chéng)少數的一些線條或者筆畫。正是這(zhè)些簡單的筆畫構成(chéng)了SketchRNN底層的數據集。借助谷歌開(kāi)源的TensorFlow軟件庫,每一種(zhǒng)繪圖——貓,瑜伽動作,雨——都(dōu)能(néng)夠用于訓練一種(zhǒng)特定的神經(jīng)網絡。這(zhè)有别于引起(qǐ)媒體廣泛報道(dào)的那種(zhǒng)基于照片的繪圖系統,比如機器能(néng)夠渲染出梵高或者原來的DeepDream風格的照片,又或者能(néng)夠畫出任何的形狀,然後(hòu)給它填充“貓的特征”。
這(zhè)些項目都(dōu)讓人類覺得很不可思議。它們相當有趣,因為它們所産生的圖像看起(qǐ)來就(jiù)像來自人類對(duì)現實世界的觀察,盡管不完全像。
像人那樣(yàng)用繪圖表達所看到(dào)的東西
然而,SketchRNN的輸出作品一點都(dōu)稱不上不可思議。“它們感覺很真實,”艾克說(shuō),“我不想說(shuō)‘很像人類的作品,’但它們感覺很真實,那些像素生成(chéng)工具則不然。”
這(zhè)是Magenta團隊的核心洞見。“人類……并不是把世界當成(chéng)一個像素網格去理解,而是發(fā)展出抽象的概念去表示我們所看到(dào)的東西。”艾克和大衛·哈在描述其工作的論文中寫道(dào),“我們從小時(shí)候就(jiù)能(néng)夠通過(guò)用鉛筆或者蠟筆在紙上繪畫來傳達我們所看到(dào)的東西。”
如果人類能(néng)夠做到(dào)這(zhè)一點,那谷歌會(huì)希望機器也能(néng)夠做到(dào)。去年,谷歌CEO桑達爾·皮查伊(Sundar Pichai)稱他的公司“以人工智能(néng)為先”。對(duì)于谷歌來說(shuō),AI是其“將(jiāng)全世界的信息組織起(qǐ)來,使之随處可得,随處可用”初始使命的一種(zhǒng)自然而然的延伸。現在不同的地方在于,信息由人工智能(néng)來組織,然後(hòu)使得它們能(néng)為廣大用戶使用。Magenta是谷歌組織和理解一個特定的人類領域的瘋狂嘗試之一。
機器學(xué)習是谷歌所采用的各種(zhǒng)工具最廣泛的一個概念。它是通過(guò)編程讓計算機自學(xué)如何執行各種(zhǒng)不同的任務的一種(zhǒng)方式,常見的方式是給計算機注入标簽數據來進(jìn)行“訓練”。進(jìn)行機器學(xué)習的一種(zhǒng)熱門方式是,借助以人腦的連接系統為原型的神經(jīng)網絡。不同的節點(人工神經(jīng)元)會(huì)相互連接,它們有著(zhe)不同的權重,會(huì)響應部分輸入信息,但不響應其它的輸入信息。
近年來,多層級神經(jīng)網絡被(bèi)證明在解決棘手的問題上非常成(chéng)功,尤其是在翻譯和圖像識别/操縱上。谷歌在這(zhè)些新架構上重新構建了很多的核心服務。這(zhè)些神經(jīng)網絡模拟人類大腦的運作過(guò)程,其互相連接的層可識别輸入信息(比如圖像)不同的模式。低級别的層可能(néng)含有響應光明與黑暗簡單的像素級模式的神經(jīng)元。高級别的層則可能(néng)會(huì)響應狗的臉、汽車或者蝴蝶。
構建帶有這(zhè)種(zhǒng)架構和機制的網絡會(huì)帶來不可思議的成(chéng)效。原本極其困難的計算難題變成(chéng)了調整模型的訓練,然後(hòu)讓一些圖形處理單元運算一會(huì)的問題。正如吉迪恩·劉易斯-克勞斯(Gideon Lewis-Kraus)在《紐約時(shí)報》所描述的,谷歌翻譯(Google Translate)曾是一個開(kāi)發(fā)超過(guò)10年的複雜系統。該公司後(hòu)來利用深度學(xué)習系統僅僅花了9個月就(jiù)重新構造了一個谷歌翻譯系統。“該AI系統一夜之間就(jiù)有了巨大的提升,這(zhè)種(zhǒng)提升相當于老系統在整個生命周期積累的全部提升。”劉易斯-克勞斯寫道(dào)。
正因為此,神經(jīng)網絡的使用量和類型呈現井噴式增長(cháng)。SketchRNN方面(miàn),他們使用可處理輸入序列的遞歸神經(jīng)網絡。他們用人們畫各種(zhǒng)不同的東西時(shí)連續畫下的筆畫來訓練該網絡。
用最簡單的話來說(shuō),這(zhè)種(zhǒng)訓練就(jiù)是一個編碼的過(guò)程。數據(繪圖)輸入之後(hòu),該網絡會(huì)嘗試想出它在處理的東西的一般性規則。那些概括是數據的模型,數據存儲在描述網絡中的神經(jīng)元的傾向(xiàng)的數學(xué)計算當中。
那個結構被(bèi)稱作潛伏空間或者Z(zed),是豬的特征或者卡車的特征又或者瑜伽動作的特征方面(miàn)的信息存儲的地方。正如AI行業人士所說(shuō)的,叫(jiào)系統做個樣(yàng)本,即叫(jiào)它畫出它訓練的東西來,SketchRNN就(jiù)會(huì)畫出豬或者卡車又或者瑜伽動作。它所畫的東西,就(jiù)是它所學(xué)到(dào)的東西。
SketchRNN 能(néng)夠學(xué)到(dào)什麼(me)?
SketchRNN能(néng)夠學(xué)到(dào)什麼(me)呢?下圖是一個接受過(guò)消防車繪畫訓練的神經(jīng)網絡所生成(chéng)的新消防車。在該模型中,有個名為“溫度”的變量,它可讓研究人員上下調整輸出的随機性。在下圖中,偏藍色的圖像是“溫度”下調後(hòu)的産物,偏紅色的圖像則是“溫度”上調後(hòu)的産物。
又或者,你可能(néng)更喜歡貓頭鷹:
最好(hǎo)的一個例子就(jiù)是瑜伽動作:
這(zhè)些畫看似人的作品,但它們并不是由人親自繪畫的。它們是對(duì)人類可能(néng)會(huì)如何畫這(zhè)種(zhǒng)東西的一種(zhǒng)重造。有的畫畫得很不錯,有的則畫得沒(méi)那麼(me)好(hǎo),但如果你是在跟AI玩看圖說(shuō)詞遊戲,那你應該不難看出它們是什麼(me)。
SketchRNN還(hái)能(néng)夠接受以人工繪圖為形式的輸入。你傳送某種(zhǒng)繪圖,然後(hòu)它就(jiù)會(huì)嘗試去理解它。如果你給一個接受過(guò)貓數據訓練的模型輸入一張三眼貓繪圖,那會(huì)發(fā)生什麼(me)呢?
看到(dào)沒(méi)?看該模型在右邊的各種(zhǒng)輸出圖像(同樣(yàng)用藍色和紅色來表示不同的“溫度”),它剔除了第三隻眼睛!為什麼(me)呢?因為該模型已經(jīng)通過(guò)學(xué)習知道(dào),貓有兩(liǎng)隻三角形的耳朵,臉部左右兩(liǎng)邊都(dōu)有胡須,臉圓圓的,隻有兩(liǎng)隻眼睛。
當然,該模型完全不知道(dào)耳朵實際上是什麼(me)東西,不知道(dào)貓的胡須是否會(huì)動,甚至不知道(dào)臉是什麼(me),也不知道(dào)我們的眼睛能(néng)夠將(jiāng)圖像傳輸到(dào)我們的大腦。它對(duì)于這(zhè)些繪圖指代的是什麼(me)一無所知。
但它确實知道(dào)人類是如何表示貓、豬、瑜伽動作或者帆船的。
“當我們開(kāi)始生成(chéng)帆船的繪圖時(shí),該模型會(huì)基于所輸入的那張繪圖得出數百張顯示其它帆船模型的繪圖。”谷歌的艾克表示,“我們都(dōu)能(néng)看出它們畫的是什麼(me),因為該模型是利用所有的訓練數據得出理想的帆船圖像。它并不是畫出特定的帆船,而是畫出帆船的特征。”
成(chéng)為人工智能(néng)運動的一份子是一件令人興奮的事(shì)情,它是有史以來最令人興奮的技術項目之一,至少對(duì)那些參與其中的人來說(shuō)是如此,對(duì)于很多其他的人來說(shuō)也是如此——它甚至能(néng)夠擊倒道(dào)格·艾克。
我是指訓練神經(jīng)網絡畫雨天。輸入一副蓬松的雲繪圖,然後(hòu)就(jiù)會(huì)出現下面(miàn)的情況:
雨從你給該模型傳送的雲下下來。那是因為很多人畫雨天的時(shí)候都(dōu)是先畫出一朵雲來,然後(hòu)再在下面(miàn)畫雨。如果該神經(jīng)網絡看到(dào)雲,那它就(jiù)會(huì)在那個雲的形狀下面(miàn)畫出雨來。(有意思的是,那些數據是關于一連串的筆畫,因此如果你先畫的是雨,那該模型就(jiù)不會(huì)先畫雲朵。)
這(zhè)可以說(shuō)是一項令人欣喜的工作,但在對(duì)人類如何思考實施逆向(xiàng)工程的漫長(cháng)項目中,這(zhè)算是一項巧妙的附帶項目,還(hái)是很重要的一塊拼圖?
艾克認為繪圖最吸引人的地方在于,它們用如此少的信息來包含如此多的意義。“你畫一張笑臉,隻需幾個筆畫就(jiù)能(néng)畫出來。”他說(shuō)道(dào)。筆畫看起(qǐ)來跟人臉以像素為基礎的照片完全不一樣(yàng)。但3歲的小孩也能(néng)夠分辨出人臉,也能(néng)分辨它開(kāi)心與否。艾克認為這(zhè)是一種(zhǒng)信息壓縮,對(duì)于這(zhè)種(zhǒng)編碼,SketchRNN會(huì)解碼,任何随心所欲地進(jìn)行重新編碼。
SketchRNN 覆蓋範圍有限
OpenAI研究者安德烈·卡帕錫(Andrej Karpathy)目前在AI研究成(chéng)果傳播上扮演著(zhe)重要角色,他說(shuō),“我非常支持SketchRNN項目,它真的很酷。”但他也指出,他們就(jiù)筆畫的重要性給他們的模型引入了很強的假設,這(zhè)意味著(zhe)他們對(duì)于整個人工智能(néng)開(kāi)發(fā)事(shì)業的貢獻相對(duì)沒(méi)那麼(me)大。
“我們開(kāi)發(fā)的生成(chéng)模型通常都(dōu)會(huì)嘗試盡可能(néng)全面(miàn)地注重數據集的細節,不管你給它們注入什麼(me)數據,不管是圖像、音頻、文本還(hái)是别的東西,它們都(dōu)适用。”他說(shuō),“除了圖像以外,這(zhè)些數據沒(méi)有一樣(yàng)是由筆畫組成(chéng)的。”
他補充道(dào),“對(duì)于人們作出很強的假設,將(jiāng)它們編碼到(dào)模型中,在各自的特定領域取得更令人印象深刻的成(chéng)果,我完全能(néng)夠接受。”
艾克和大衛·哈正在打造的東西更接近于玩國(guó)際象棋的AI,而不是能(néng)夠判斷出任意遊戲的規則,也能(néng)夠玩這(zhè)些遊戲的AI。對(duì)于卡帕錫來說(shuō),兩(liǎng)人當前項目覆蓋的範圍似乎比較有限。
理解人類的思考方式
不過(guò),他們覺得線條畫對(duì)于理解人類的思考方式至關重要,并不是沒(méi)有原因的。除了這(zhè)兩(liǎng)位谷歌人員之外,也有别的研究者被(bèi)筆畫的力量所吸引。2012年,喬治亞理工大學(xué)的詹姆斯·海斯(James Hays)聯手柏林工業大學(xué)的馬賽厄斯·艾茲(Mathias Eitz)和馬克·亞曆克莎(Marc Alexa)打造了一個筆畫數據集,以及一個識别筆畫的機器學(xué)習系統。
對(duì)于他們而言,繪圖是一種(zhǒng)“通用的溝通”形式,是某種(zhǒng)所有有标準認知功能(néng)的人都(dōu)能(néng)夠做和做過(guò)的事(shì)情。“自史前時(shí)代以來,人們都(dōu)用繪圖式的岩石畫或者洞穴畫來描繪視覺世界。”他們寫道(dào),“這(zhè)種(zhǒng)象形文字比語言要早幾千年出現,如今人人都(dōu)會(huì)繪畫和識别繪圖中的物體。”
他們提到(dào)了多倫多大學(xué)神經(jīng)系統科學(xué)家德克·沃爾特(Dirk Walther)在《美國(guó)國(guó)家科學(xué)院院刊》上發(fā)表的論文,該論文說(shuō)“簡單抽象的繪圖激活我們的大腦的方式與真實的刺激物相似。”沃爾特和該論文的合著者假定,線條畫“可捕捉我們自然世界的本質,”盡管逐個像素來看,貓的線條畫看上去一點都(dōu)不像貓的照片。
如果說(shuō)我們大腦中的神經(jīng)元是在神經(jīng)網絡模拟的分層結構内運作,那繪圖可能(néng)是掌握存儲我們對(duì)于物體的簡化概念(沃爾特所說(shuō)的“本質”)的層級的一種(zhǒng)方式。也就(jiù)是說(shuō):它們可能(néng)能(néng)夠讓我們真正理解我們的祖先很久以前進(jìn)化成(chéng)現代形态的時(shí)候人類開(kāi)始采用的那種(zhǒng)新思考方式。繪圖,不管是在洞穴的牆壁上還(hái)是在紙巾的背面(miàn)上,或許描繪了從識别馬到(dào)識别馬的特征的進(jìn)化,從畫出日常經(jīng)曆到(dào)畫出抽象的象征性思維的進(jìn)化,這(zhè)也是人類進(jìn)化成(chéng)現代形态的過(guò)程。
人類的現代生活大多數都(dōu)源自那一轉變:語言,金錢,數學(xué)計算,最後(hòu)是電腦運算本身。因此,如果繪圖最終在意義重大的人工智能(néng)的打造上扮演重要的角色,那就(jiù)最好(hǎo)不過(guò)了。
然而,對(duì)于人類來說(shuō),繪圖是對(duì)真實物品的一種(zhǒng)描繪。我們能(néng)夠輕易理解抽象的四線表示法和物品本身之間的關系。該概念對(duì)于我們來說(shuō)有某種(zhǒng)意義。對(duì)于SketchRNN來說(shuō),繪圖就(jiù)是一連串的筆畫,是經(jīng)過(guò)一定的時(shí)間形成(chéng)的一個形狀。機器的任務是抓住我們的繪圖所描述的東西的本質,嘗試利用它們來理解這(zhè)個世界。
SketchRNN團隊正在探索多個不同的方向(xiàng)。他們可能(néng)會(huì)開(kāi)發(fā)一個嘗試通過(guò)人類反饋提升繪畫能(néng)力的系統。他們可能(néng)會(huì)在一種(zhǒng)以上的繪圖上訓練模型。也許他們將(jiāng)會(huì)找到(dào)辦法去判斷他們受過(guò)繪圖中的豬特征識别訓練的模型能(néng)否推廣到(dào)識别照片級圖像中豬的特征。我個人很希望看到(dào)他們的模型能(néng)夠接入其它在傳統的貓圖上訓練過(guò)的模式。
SketchRNN 隻是“第一步”
但他們自己也坦言,SketchRNN隻是“第一步”,要學(xué)習的還(hái)有很多。這(zhè)些解碼繪圖的機器要參與的人類藝術曆史相當悠久。
在給《紐約客》(The New Yorker)撰寫有關歐洲洞穴壁畫的文章時(shí),朱迪思·瑟曼(Judith Thurman)寫道(dào),舊石器時(shí)代的藝術在“長(cháng)達2.5萬年的時(shí)間裡(lǐ)幾乎沒(méi)有變化,幾乎沒(méi)有任何的創新或者抵制活動。”她指出,那是“有記錄的曆史的四倍長(cháng)”。
計算機,尤其是新的人工智能(néng)技術,正在動搖長(cháng)久以來人類對(duì)于自己擅長(cháng)做的事(shì)情的觀念。人類在1990年代在西洋跳棋比賽中輸給機器,之後(hòu)下國(guó)際象棋也輸給機器,近年則是在圍棋比賽中輸給AlphaGo。
但AI近年之所以取得顯著的進(jìn)步,并不是因為藝術發(fā)展的速度(盡管它确實發(fā)展得很快)。對(duì)于艾克來說(shuō),它更多地是因為他們奮力去研究人類思考方式的基本原理,以及我們究竟是誰。“藝術真正核心的部分是基本的人文素養,是我們平常相互溝通的方式。”艾克說(shuō)。
縱觀整個深度學(xué)習運動,各式各樣(yàng)的人都(dōu)是在研究人類生活的基本機制——我們如何看東西,我們如何移動,我們如何說(shuō)話,我們如何識别人臉,我們如何用言語編故事(shì),我們如何奏樂——這(zhè)看起(qǐ)來有點像人類特征的輪廓,而不是任意特定的人的輪廓。
現在,它分辨率低,是真實想法的漫畫,是真實想法的人物線條畫,但我們應該不難想到(dào)要從該繪圖收集信息。