陕西快乐10分钟开奖结果查询|陕西快乐10分钟走势图

基于墊腳石原理的神經進化算法:為人工智能注入創造力

近年來,神經網絡借鑒了生物學策略的相關理論知識,實現了大飛躍,完成了之前無法完成的任務。神經進化作為人工智能的一個研究領域,試圖通過進化算法而非隨機梯度下降來設計和構建神經網絡。然而,神經進化存在兩大難題:高昂的計算成本和不明確的目標。最近,基于墊腳石原理的神經進化算法終于成功克服這些挑戰,帶來了新的研究思路:忽略目標比直接追求目標能更快速實現目標。忽略目標或許是制造真正智能機器的最佳方法。

從外星人的臉到跑車,這中間發生了什么?

2007年,中佛羅里達大學(University of Central Florida)的計算機科學家 Kenneth Stanley在玩他和學生們創建的網站Picbreeder時,一個外星人圖案變成了賽車圖案,這個發現改變了他的生活。

在Picbreeder上,用戶會看到一組15張相似的圖片,它們由幾何形狀或漩渦形狀的圖案組成,這些圖案都是同一主題的變種。有時,一些圖案就像一個真實的物體,比如一只蝴蝶或一張臉。用戶被要求選擇一張圖片,他們通常會點擊自己覺得最有趣的東西。完成操作后,屏幕內容會根據他們的選擇做出變化,出現一組新的圖片。從這種游戲性的探索中,產生了許多奇特的設計。

Picbreeder (一個在線藝術創作網站,允許圖片像動物一樣繁殖演化)

網址:http://picbreeder.org/index.php

picbreeder官網截圖

Stanley是神經進化(neuroevolution)這個人工智能領域的先驅,神經進化利用生物進化原理來設計更智能的算法。對于Picbreeder來說,每張圖片都是由一個類似于神經網絡的計算系統產生的。當選擇一張圖片,生成新的15張圖片時,被選擇的圖片對應的神經網絡會突變為15個略有不同的變種,每個變種分別產生一張新圖片。Stanley并沒有打算讓Picbreeder做出什么特別的東西,他只是有一種預感,依靠這個發現,也許能讓他學到一些和進化論或者人工智能相關的東西。

外星人的臉(左)進化成一輛跑車(右)。

(圖片來自Picbreeder)

一天,Stanley在網站上發現了一張像外星人的臉的圖片,并開始了以它為起點的進化:選擇一張圖片,再選擇下一張圖片,這樣一直進行下去。偶然的是,外星人圓圓的眼睛開始向下移動,像一輛汽車的車輪。最后Stanley一步步進化,得出了一輛漂亮的跑車。他一直在思考這樣一個事實:如果是從零開始進化一輛車,而不是從一個外星臉的圖片開始,他可能永遠不會得到這樣的結果,因此,他想知道這個試驗對于直接去尋找問題的解來說,意味著什么。“這對我的整個人生產生了巨大的影響。”他觀察Picbreeder上出現的其它有趣的圖片,追蹤了它們的演化軌跡,意識到幾乎所有圖片都是通過看起來完全不同的方式進化而來的。Stanley說:“看到這些跡象,我被震驚了。”

墊腳石原理:神經進化新思路

Stanley的發現促成了他所稱的“墊腳石原理”(steppingstone principle),并以此為基礎設計了一種算法,該算法可以更充分地發揮生物進化的無限創造潛力。

進化算法已經存在很久了。傳統上,它們被用來解決特定的問題。在進化主體的每一代中,都會依據某種度量標準(例如,控制兩足機器人的能力),選取表現最佳的解決方案,然后讓其產生后代。盡管這些算法取得了一定的成功,但與其它方法(如近年來廣泛流行的深度學習)相比,它們所需的計算量更大。

墊腳石原理超越了傳統的進化方法,它不是針對特定目標展開優化,而是對所有可能的解決方案進行創造性的探索,這促使它取得突破性的成果。今年早些時候,一個基于墊腳石原理的系統在一個視頻游戲中應對自如,而兩個流行機器學習方法都對此無能為力。在近期Nature雜志發表的一篇論文中,DeepMind(率先將深度學習應用于圍棋等問題的一家人工智能公司)稱,該系統成功地將深度學習與一組具有多樣性的解決方案的進化結合起來。

論文題目:

Grandmaster level in StarCraft II usingmulti-agent reinforcement learning

論文地址:

http://doi.org/10.1038/s41586-019-1724-z

星際爭霸游戲

通過與生物進化進行類比,我們可以看到“墊腳石”的潛力。在自然界中,生命的進化是沒有任何總體目標的,用于一個目標的特性可能會被用于完全不同的目標。例如,羽毛可能是為了保暖而進化出來的,后來才進化的便于飛行。

生物進化同時也是產生人類智能的唯一系統,實現人類水平的智能是許多人工智能研究者的終極夢想。受生物的進化歷程啟發,Stanley和其他人已經相信,要使算法能夠像人類一樣輕松地(甚至更好地)在物理世界和社交世界中穿行,需要模仿大自然的策略。他們認為,不能對推理的規則進行硬編碼,或讓計算機學會在特定的性能指標上獲得高分,而是必須讓一組解決方案蓬勃發展進化。讓它們優先追求新穎性(novelty)或趣味性(interestingness),而不是像走路或說話的能力這樣的具體目標。這樣它們可能會發現一條間接的道路,一些墊腳石,相比直接通過進化尋求走路和說話這些技能,墊腳石算法最后能更好地完成走路和說話這樣的任務。

新穎性搜索:

以新穎性為目標的神經進化算法

在Picbreeder之后,Stanley開始論證神經進化可以克服其最顯著的反對意見:“如果我運行的算法具有這樣高的創造力,以至于我都不確定它會產生什么,從研究的角度來看,這是非常有趣的,但從商業的角度來看,這很難找到具體的應用場景。”

他希望能證明,僅僅追尋著新奇的想法,并以此為進化方向,那么算法不僅可以產生多種多樣的結果,而且可以解決問題。更大膽地講,他的目標是證明,完全忽略某個目標比直接追求它更能讓你快速達到目標。他通過一種叫做新穎性搜索(novelty search)的方法來做到這一點。

介紹新穎性搜索方法(novelty search)的論文:

Abandoning Objectives: Evolution Through the Search for Novelty Alone

論文地址:

https://www.mitpressjournals.org/doi/abs/10.1162/EVCO_a_00025

這個系統以一個神經網絡為基礎。神經網絡是由多個神經元(小的計算單元)層層連接排列組成,一層神經元的輸出通過具有不同權重的連接傳遞到下一層。舉一個簡單的例子,輸入數據(例如圖像)到神經網絡中,隨著圖像信息的層層傳遞,網絡提取的內容信息越來越抽象。最終,最后一層計算出最高級別的信息:圖像的標簽。

在神經進化中,你首先要將各層之間的權重初始化為隨機值。這種隨機性意味著網絡不能很好的完成任務。但是,從這種令人遺憾的狀態出發,你可以創造一組隨機突變(random mutations),也就是權重略有不同的后代神經網絡,并評估它們的能力。你保留最優秀的一個神經網絡,然后重復以上過程產生更多的后代。(更高級的神經進化策略還會在神經元和連接的數量和排列方面引入突變。)神經進化是一種元算法(meta-algorithm),一種用于設計算法的算法。最終,這些算法可以有不錯的表現。

對于Uber人工智能實驗室和中佛羅里達大學的計算機科學家Kenneth Stanley而言,墊腳石原理可以解釋創新。(圖片來自Asa Mathat)

為了測試這個墊腳石原理,Stanley和他的學生Joel Lehman調整了選擇過程。新穎性搜索不選擇那些在任務中表現最佳的網絡,而是選擇那些與父輩行為顯著不同的網絡。(在Picbreeder中,人們傾向于趣味性;而在這里,新穎性搜索傾向于新穎性。)

在一次測試中,他們將虛擬的輪式機器人放到迷宮中,不斷進化用來控制它們的算法,希望它們能找到出口。他們從0開始進化了40次。在一個用來對比的程序中,控制算法是根據它們離出口的距離(直線距離)來選擇的,這個對比程序進化出的機器人在40次中只成功3次。而新穎性搜索完全忽略每個機器人離出口的距離,成功39次。成功的原因是機器人設法避開了死胡同。它們沒有面向出口,也沒有用頭撞墻,而是探索了陌生的領域,找到了解決辦法,最后意外地獲得成功。紐約大學的計算機科學家Julian Togelius說:“新穎性搜索很重要,因為它顛覆了一切,本質上就是在問,如果我們沒有目標,會發生什么。”

Stanley提出自己的觀點,追求目標可能成為實現這些目標的阻礙。后來,他找到了巧妙的方法來將新穎性搜索與特定目標結合起來。這促使他和Lehman創建了一個用以模擬自然界進化中特定生態位(niche)的系統。在這種方法中,算法只與其它類似的算法競爭。正如蠕蟲不與鯨魚競爭一樣,該系統讓處在獨特的“算法生態位”的算法獨立進化,使得從中得以涌現出各種有前景的方法。

這種帶有局部競爭( localized competition)的進化算法已經顯示出熟練處理像素、控制機械手臂以及(如Nature雜志封面所描述的)幫助六足機器人像動物一樣在失去肢體后快速調整步態的能力。這些算法的一個關鍵因素是它們培育了墊腳石。他們不是始終優先考慮一個整體最佳解決方案,而是保持了一組多樣化的充滿活力的小的局部生態,其中任何一個都可能會對最終的解做出貢獻。而最佳解決方案可能產生于一個在不同小生態之間跳躍的算法。

介紹帶有局部競爭的進化算法的相關論文

論文題目:Evolving a diversity of virtual creaturesthrough novelty search and local competition

論文網址:https://dl.acm.org/citation.cfm?id=2001606

Nature 封面報道:Press material for 'Robots that canadapt like animals'

論文網址:https://members.loria.fr/JBMouret/nature_press.html

墊腳石原理克服了神經進化的缺點

對于Stanley(現在在Uber人工智能實驗室工作)來說,墊腳石原理解釋了創新:如果你帶著一臺現代電腦回到過去,告訴研發真空管的人,放棄它們的研究,然后開始研發筆記本電腦,那么我們將不會擁有真空管,也不會擁有筆記本電腦。這也解釋了進化:我們是從扁形蟲進化而來的,扁形蟲并不是特別聰明,但具有兩側對稱性(bilateral symmetry)。Stanley說:“目前還不清楚兩側對稱性與智能有什么關系,更不用說與莎士比亞有什么關系,但這之間確實是相關的。”

在過去的十年中,神經進化經歷了意想不到的曲折過程。長期以來,它一直生活在其它人工智能領域的陰影之下。

德克薩斯大學奧斯汀分校(University of Texas,Austin)的計算機科學家Risto Miikkulainen(同時也是Stanley的前博士生導師)表示,神經進化這種方法最大的缺點之一就是它所需要的計算量。在傳統的機器學習中,當你訓練一個神經網絡時,它會逐漸變得越來越好。而在神經進化中,權重隨機變化,網絡的性能可能會比變化之前更差。

另一個缺點也很顯然,大多數人都有一個想解決的特定問題。這種針對趣味性進行優化的搜索策略可能會讓你為該問題找到一個創造性的解決方案,但是也可能把你引入歧途,找不到正確的解決方案。

話又說回來,沒有什么策略是完美的。在過去五年左右的時間里,人工智能不同領域的研究如深度學習和強化學習呈現爆炸式增長。在強化學習中,算法與環境相互作用(例如,機器人在現實世界中穿行,AI玩家在游戲中競爭),通過反復試驗來學習哪些行為會產生期望的結果。Deepmind使用深度強化學習開發了一個程序,可以在圍棋上擊敗世界上最好的棋手。在此之前,許多人認為這一壯舉還需要幾年或幾十年的時間才可能實現。

但是強化學習可能會陷入困境。稀疏或不頻繁的獎勵不能給算法足夠的反饋,無法使算法朝著目標前進。欺騙性獎勵(即阻礙長期進步的短期收益)也會使算法陷入死胡同。因此,盡管強化學習可以在《Invaders》或《Pong》這些加分頻繁且目標明確的游戲中擊敗人類,但在其它缺乏這些特性的經典游戲中,它們卻表現平平。

基于墊腳石原理的神經進化算法是深度學習方法的補充

在過去的一年里,基于墊腳石原理的人工智能最終成功克服了該領域中許多長期存在的挑戰。

在游戲《Montezuma’s Revenge》中,Panama Joe穿梭于地下迷宮中的各個房間,收集開門的鑰匙,同時避開敵人和障礙物,如蛇和火坑。為了打贏這個游戲,Stanley、Lehman、Jeff Clune、Joost Huizinga和Adrien Ecoffet(這五個人都在Uber人工智能實驗室工作)開發了一個系統,在這個系統里,Panama Joe基本上四處游蕩,隨機嘗試各種行動。每次到達一個新的游戲狀態(即到達一個新的位置,有一套新的道具),他都會把到達這個狀態所采取的一系列行動歸檔存入記憶中。如果他后來找到一條更快的路徑來到達那個狀態,那么舊的記憶就會被替換掉。在訓練期間,Panama Joe不斷挑選一個存儲狀態,隨機地探索一會兒,并將他發現的所有新狀態添加到記憶中。

電子游戲《Montezuma’s Revenge》于1984年首次發行,獎勵開放式探索。(圖片來自Adrien Ecoffet和Joost Huizinga,Uber)

最終,這些狀態中,出現了一個贏得比賽的狀態。Panama Joe的記憶中記載著他為實現目標所采取的所有行動。他沒有使用神經網絡或強化學習(收集鑰匙或接近迷宮出口時沒有獎勵)就實現了目標,只是通過隨機探索和尋找巧妙的方法來收集和連接墊腳石。這種方法不僅擊敗了最好的算法,還打破了人類的世界紀錄。

同樣的技術,研究人員稱之為Go-Explore,在《Pitfall》游戲中擊敗了人類專家!在這個游戲中,Pitfall Harry在叢林中穿行尋找寶藏,同時避開鱷魚和流沙。沒有用其它機器學習方法,Go-Explore得分就超過0。(Go-Explore是第一個得分超過0的算法。)

介紹Go-Explore技術論文:

論文題目:Evolving a diversity of virtual creaturesthrough novelty search and local competition

論文網址:https://dl.acm.org/citation.cfm?id=2001606

DeepMind被認為是強化學習的研發核心,現在也對神經進化越來越感興趣。1月份時,該團隊展示了AlphaStar軟件,這款軟件可以在復雜的視頻游戲《星際爭霸II》中擊敗頂尖的職業選手。在這個游戲中,兩個對手控制著軍隊,通過建立殖民地來統治數字世界的領地。AlphaStar進化出了一群互相競爭、互相學習的玩家。在上周的Nature雜志上,DeepMind的研究人員宣布,最新版本的AlphaStar已經在一個流行的游戲平臺上《星際爭霸II》活躍玩家中排名前0.2%,成為第一個在不加入額外限制的前提下,登上流行電子競技頂端的人工智能。

AlphaStar軟件介紹:

https://deepmind.com/blog/article/alphastar-mastering-real-time-strategy-game-starcraft-ii

參與了這個項目的DeepMind的計算機科學家Max Jaderberg說:“與AlphaStar合作的很長一段時間里,它一直在進步,但它仍然可以繼續被改進。你可以訓練一個智能體(agent),它的平均表現非常好,但你總是可以訓練出另一個智能體來對付它,然后找出它的漏洞。”

與兒童游戲剪刀布游戲一樣,《星際爭霸II》中沒有最佳的游戲策略。因此,DeepMind鼓勵它的智能體進化出多樣化的策略——不是作為墊腳石,而是作為目標本身。AlphaStar將五個不同的智能體的策略結合起來,最終以五比零擊敗兩個職業選手。選擇五個智能體,是為了保證對手的任何一個策略都不會影響到所有的智能體。它們的優勢在于它們的多樣性。

Uber人工智能實驗室和懷俄明大學的計算機科學家Jeff Clune認為開放式發現可能是實現人類水平的人工智能的最快方法。(圖片來自Wayne Cunningham,Uber)

Alphastar演示了進化算法的一個主要用途:保持大量不同的解決方案。最近另一個DeepMind項目展示了它的另一個用途:優化單個解決方案。該團隊與Alphabet的自動駕駛汽車項目Waymo合作,開發識別行人的算法。為了避免陷入一種效果很好但不是最佳策略的方法,他們保留了“小生境”或亞群體,這樣使得新穎的解決方案在被頂尖的解決方案淘汰之前有時間發展。

近年來,基于種群的算法(Population-based algorithms)變得越來越流行,DeepMind的科學家兼機器人負責人Raia Hadsell使用計算資源的行業標準術語解釋說:“部分原因是它們與我們現在擁有的計算機類型非常匹配。”Hadsell邀請Clune、Lehman和Stanley在6月份的機器學習國際會議(International Conference on Machine Learning,ICML)上做了兩個小時的演講,介紹他們的工作。Hadsell說:“我認為這是人工智能中很重要的研究領域,因為它是和推動人工智能發展的深度學習方法具有互補性。”

POET算法:用人工智能設計人工智能

到目前為止討論到的所有算法的創造力都是有限的。AlphaStar只能提出關于《星際爭霸II》的新策略。新穎性搜索一次只能在一個領域內(解迷宮或者步行機器人)找到新穎性。

然而,生物進化產生了無窮無盡的新穎性。細菌,海藻,鳥類和人類的出現,是因為解決方案在不斷更新,同時問題也在不斷演變。例如,長頸鹿是對樹木變高帶來的問題的回應。人類的創新也是如此。我們給自己創造了問題(例如我們能把人送上月球嗎?)然后解決它們。

為了重現問題和解決方案之間的這種開放式對話,今年早些時候,Stanley、Clune、Lehman和Uber的另一位同事Rui Wang發布了一個名為POET(Paired Open-Ended Trailblazer)的算法。為了測試該算法,他們開發了一群虛擬的兩足機器人。他們還為機器人開發了包含許多障礙的訓練場,其中包括小山、溝渠和樹樁。這些機器人有時會互換位置,嘗試新的地形。例如,一個機器人學會了拖著膝蓋穿越平坦的地形,然后它被隨機地轉移到有短樹樁的地方,在那里它必須學會直立行走。當它再次被轉移回第一個障礙訓練場時,它的完成速度要快得多。通過這種間接的途徑,機器人得以從一個難題中學習技能并將其應用到另一個難題中。

POET詳細介紹:

https://eng.uber.com/poet-open-ended-deep-learning/

POET可以用來設計新的藝術形式,或者通過自己提出并解決新的挑戰來取得科學發現。它甚至可以走得更遠,這取決于它改造世界的能力。Stanley說,他希望建立的算法在十億年后仍然可以做一些有趣的事情。

Stanley說:“進化發明了視覺,發明了光合作用,發明了人類水平的智能,發明了一切,并且所有這些都是通過一種算法來完成的。如果能捕捉到這個過程的一點點細節,我認為可能都是非常強大的。”

在最近的一篇論文中,Clune認為,開放式發現(open-ended discovery)可能是通向通用人工智能最快的途徑。這里說的人工智能是指幾乎擁有人類所有能力的機器。人工智能領域的大部分研究都集中在人工設計智能機器的各個構件上,比如不同類型的神經網絡結構和學習過程。但目前還不清楚如何將它們捆綁在一起形成一個通用的智能系統。

開放式發現與通用人工智能相關介紹pdf文檔鏈接:

https://arxiv.org/pdf/1905.10985.pdf

相反,Clune認為應該更多地關注設計人工智能的人工智能。算法將使用類似POET這樣的方法來設計或進化神經網絡和它們的學習環境。這種開放式的探索可能通過我們從未預料到的途徑(或者各種不同的智能)來實現人類水平的智能。Clune說:“數十年的研究教會我們,這些算法總能讓我們感到驚訝,并在智力上超過它的設計者。因此,隨著這些算法變得更加強大和開放,我們不能自大地以為我們能夠知道它們的結果。”

對研究人員施加過多的控制也可能是自大的表現。諷刺的是:Stanley最初向美國國家科學基金會提出Picbreeder項目時,該基金會拒絕了他的資助申請,稱其目標不明確。但是,這個項目帶來了大量論文和訪談、一本書和一家初創公司(Geometric Intelligence,被Uber收購,成為Uber人工智能實驗室的核心)。Stanley說:“對我來說,有一件事真的很驚人,也很瘋狂。那就是我如何走到這一步的故事,本質上和讓我走到這一步的算法洞見是一樣的。引導我產生見解的東西,實際上就是見解本身。”

《Why Greatness Cannot Be Planned》(圖片來自https://www.springer.com/us/book/9783319155234)

免責聲明:本文僅代表文章作者的個人觀點,與本站無關。其原創性、真實性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容文字的真實性、完整性和原創性本站不作任何保證或承諾,請讀者僅作參考,并自行核實相關內容。

http://www.liwmx.tw/style/images/nopic.gif
我要收藏
贊一個
踩一下
分享到
相關推薦
精選文章
?
分享
評論
首頁
陕西快乐10分钟开奖结果查询 浙江体彩app下载软件 刮刮乐 澳洲幸运8官方网站 斯诺克官网比分 吉林11选5开奖结果手机 金莎娱乐棋牌游戏平台 18选7开奖结果查询 2014年57期特码资料 广西快3 开心棋牌最新安卓版下载