成人免费无码不卡毛片,亚洲AⅤ无码精品一区二区三区,国产尤物精品视频,久久精品日本亚洲,欧美成人一区三区无码乱码A片,中文字日产幕码一区二区色哟哟,亞洲日韓中文字幕網AV

<table id="jymwr"><delect id="jymwr"><output id="jymwr"></output></delect></table>

<li id="jymwr"><tr id="jymwr"></tr></li>

李飛飛團隊從動物身上get AI新思路，提出RL計算框架，讓機器在復(fù)雜環(huán)境學(xué)習(xí)和進化

2021/02/22 作者：量子位

79

加入交流群

掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

如果機器能像動物一樣學(xué)習(xí)與進化會如何？

這是李飛飛團隊的最新研究。

在過去6億年中，動物在復(fù)雜的環(huán)境中學(xué)習(xí)與進化成各異的形態(tài)，又利用進化的形態(tài)來學(xué)習(xí)復(fù)雜的任務(wù)。如此周而復(fù)始的學(xué)習(xí)與進化，造就了動物的認(rèn)知智慧。

但其中環(huán)境復(fù)雜性、進化形態(tài)和智能控制的可學(xué)習(xí)性之間的關(guān)系原理仍然難以捉摸。

本中提出了一種深度進化強化學(xué)習(xí)計算框架DERL。它可以演化不同的形態(tài)，在復(fù)雜的環(huán)境中學(xué)習(xí)一些具有挑戰(zhàn)性的運動、操縱任務(wù)。

最終利用DERL，研究人員證明了環(huán)境復(fù)雜性、形態(tài)智能和控制的可學(xué)習(xí)性之間的幾個關(guān)系。

通過學(xué)習(xí)和進化來實現(xiàn)的形態(tài)智能

創(chuàng)建適應(yīng)性的形態(tài)，在復(fù)雜的環(huán)境中學(xué)習(xí)操縱任務(wù)是具有挑戰(zhàn)性的，存在雙重困難。

第一種，在大量可能的形態(tài)組合中進行搜索。第二種，通過終生學(xué)習(xí)評估適應(yīng)性所需要計算時間。

因此，此前的工作要么在有限的形態(tài)空間中進化，要么專注于尋找固定的形態(tài)最佳參數(shù)，亦或是就在平坦的地形中學(xué)習(xí)。

為了克服這些實質(zhì)性的限制，本文提出了深度進化強化學(xué)習(xí)（Deep Evolutionary Reinforcement Learning，DERL）計算框架。

本文提出了一種高效的異步方法，用于在許多計算元素之間并行化學(xué)習(xí)和進化基礎(chǔ)計算。

如圖（b）所示，進化的外循環(huán)通過突變操作優(yōu)化機器形態(tài)，比如高度、位置、箱子的大小等屬性。

而內(nèi)部的強化學(xué)習(xí)循環(huán)則用來優(yōu)化神經(jīng)控制器的參數(shù)。

還引入了一個UNIMAL，即UNIversal aniMAL形態(tài)設(shè)計空間，如圖（d）所示，它既具有高度的表現(xiàn)力，又豐富了有用的可控形態(tài)。

而復(fù)雜環(huán)境由三個隨機生成的障礙物組成：山丘、臺階和碎石。模型必須從初始位置（圖e綠色物體）開始，并將一個盒子移動到目標(biāo)位置（紅色方塊）。

此外，DERL創(chuàng)建了體現(xiàn)型的模型，不僅可以在較少的數(shù)據(jù)進行學(xué)習(xí)，還可以泛化解決多個新任務(wù)，從而緩解了強化學(xué)習(xí)的樣本效率低下。

DERL的運作方式是模仿達爾文進化過程中幾代模型在形態(tài)上的搜索、一生中的神經(jīng)學(xué)習(xí)交織在一起的過程，通過智能控制來評估一個給定形態(tài)解決復(fù)雜任務(wù)的速度和效果。

總共有8個測試任務(wù)，涉及了穩(wěn)定性、敏捷性和操縱性的測試，來評估每個形態(tài)對強化學(xué)習(xí)的促進作用。

研究人員在每個環(huán)境的3次進化運行中挑選出10個表現(xiàn)最好的形態(tài)。然后，每個形態(tài)從頭開始訓(xùn)練所有8個測試任務(wù)。

最終選出了在不同環(huán)境下演化出的最佳模型形態(tài)。

結(jié)果發(fā)現(xiàn)，通過鮑德溫效應(yīng)，模型適應(yīng)性可以在幾代的進化過程中從其表型學(xué)習(xí)能力迅速轉(zhuǎn)移到其基因型編碼的形態(tài)上。

（鮑德溫效應(yīng)：沒有任何基因信息基礎(chǔ)的人類行為方式和習(xí)慣，經(jīng)過許多代人的傳播，最終進化為具有基因信息基礎(chǔ)的行為習(xí)慣的現(xiàn)象。）

這些進化后的形態(tài)學(xué)又賦予了模型更好更快的學(xué)習(xí)能力，以適應(yīng)新任務(wù)。

團隊猜測，很可能是通過增加被動穩(wěn)定性和能量效能來實現(xiàn)的。

此外還證實了環(huán)境復(fù)雜性、形態(tài)智能和可學(xué)習(xí)性控制之間存在著以下的關(guān)系。

首先，環(huán)境復(fù)雜性促進了形態(tài)智能的進化，以一種形態(tài)促進學(xué)習(xí)新任務(wù)的能力來量化。

其次，進化時會迅速選擇學(xué)習(xí)速度較快的形態(tài)，這一結(jié)果構(gòu)成了長期以來猜想的形態(tài)學(xué)鮑德溫效應(yīng)的首次證明。

第三，實驗表示，鮑德溫效應(yīng)和形態(tài)智能的出現(xiàn)都有一個機理基礎(chǔ)，即通過物理上更穩(wěn)定、能量效率更高的形態(tài)的進化，從而可以促進學(xué)習(xí)和控制。

團隊介紹

這篇文章李飛飛團隊領(lǐng)銜，由來自斯坦福大學(xué)計算機科學(xué)系、應(yīng)用物理系、吳蔡德神經(jīng)科學(xué)研究所等團隊共同研究。

第一作者是Agrim Gupta，斯坦福大學(xué)二年級博士生，致力于研究計算機視覺。

論文鏈接：

https://arxiv.org/abs/2102.02202

版權(quán)聲明：與非網(wǎng)經(jīng)原作者授權(quán)轉(zhuǎn)載，版權(quán)屬于原作者。文章觀點僅代表作者本人，不代表與非網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有侵權(quán)或者其他問題，請聯(lián)系本站作侵刪。侵權(quán)投訴

人工客服
（售后/吐槽/合作/交友）

相關(guān)推薦

傳感器數(shù)據(jù)采集與nRF54系列在AI機器學(xué)習(xí)中的應(yīng)用
直播 Nordic
3.7萬
2024/11/19
輕松部署-MemryX AI 加速卡結(jié)合 Rockchip RK3588 多路物體檢測解決方案
方案大大通
1449
04/08 11:48
AI眼鏡定制_AI智能眼鏡主板解決方案提供商
方案深圳市智物通訊科技有限公司
1929
03/05 08:52
AI眼鏡_AI智能眼鏡主板PCBA定制開發(fā)_ai眼鏡方案商
方案深圳市智物通訊科技有限公司
3262
02/21 08:32
基于STM32單片機智能空氣加濕器設(shè)計
方案 DS小龍哥
4896
02/05 09:14
基于機器學(xué)習(xí)的地震預(yù)測
方案 Svan.
3073
2024/09/05
基于opencv與mediapipe的民族舞舞蹈動作識別
方案 Svan.
1632
2024/08/28

登錄即可解鎖

海量技術(shù)文章
設(shè)計資源下載
產(chǎn)業(yè)鏈客戶資源
寫文章/發(fā)需求

創(chuàng)作中心去發(fā)布

追蹤人工智能新趨勢，報道科技行業(yè)新突破

TA的熱門作品

昂仁县| 榆树市| 黑龙江省| 东兴市| 建宁县| 南安市| 武夷山市| 兴化市| 苍南县| 庐江县| 隆尧县| 伊宁县| 资阳市| 定襄县| 安化县| 游戏| 九龙坡区| 霍邱县| 措美县| 珲春市| 乌兰浩特市| 大厂| 清丰县| 弋阳县| 抚远县| 方正县| 连平县| 宜阳县| 二连浩特市| 大埔县| 崇仁县| 云浮市| 黄冈市| 龙泉市| 旅游| 景泰县| 沭阳县| 柳江县| 威海市| 无极县| 抚松县|

<dfn id="au2bb"></dfn>

<span id="au2bb"><center id="au2bb"><dl id="au2bb"></dl></center></span>