智東西5月7日消息,近日,F(xiàn)acebook和加州大學(xué)伯克利分校的研究人員研發(fā)出一種方法,可以使無人機“負(fù)重”飛行。根據(jù)模擬結(jié)果,無人機可以撿起、運輸、卸下有效載荷,同時保持平穩(wěn)的飛行狀態(tài)。人們一直希望能用無人機在倉庫或其他工業(yè)環(huán)境中運送貨物。但之前的研究顯示,搭載有效載荷會削弱無人機的飛行性能,甚至有可能造成無人機故障。在本項研究中,研究人員創(chuàng)造性地用元學(xué)習(xí)方法解決了這個問題。據(jù)了解,這是元學(xué)習(xí)方法首次用于解決無人機負(fù)重問題。這項研究發(fā)表在學(xué)術(shù)網(wǎng)站arXiv上,論文名稱為《用基于模型的元強化學(xué)習(xí)實現(xiàn)攜帶有效載荷飛行(Model-Based Meta-Reinforcement Learning for Flight with Suspended Payloads)》。一、元學(xué)習(xí):讓模型根據(jù)經(jīng)驗舉一反三裝載重物會對無人機的動力學(xué)模型造成不可預(yù)估的影響。之前的研究嘗試用自適應(yīng)控制和學(xué)習(xí)方法來解決問題,但這些方法有一些局限性。首先,由于無人機作業(yè)環(huán)境的復(fù)雜性,建模十分困難。在工業(yè)環(huán)境中,需要無人機運送的貨物質(zhì)量是不可先驗的,針對孤立的物理狀態(tài)建模并不能幫助無人機適應(yīng)所有的情況,因此人工設(shè)計的動力學(xué)模型不足以實現(xiàn)在線控制。另外,機器學(xué)習(xí)模型通常需要較長的數(shù)據(jù)校準(zhǔn)過程。但在無人機飛行過程中,拾取有效載荷后必須快速適應(yīng),不然就有可能偏離飛行路線甚至發(fā)生嚴(yán)重故障。為了解決這些問題,F(xiàn)acebook和加州大學(xué)伯克利分校的研究人員提出了基于模型的元強化學(xué)習(xí)方法?!霸獙W(xué)習(xí)(Meta Learning)”是一種機器學(xué)習(xí)方法,可以提升模型的學(xué)習(xí)效率,讓模型“學(xué)會如何去學(xué)習(xí)”。研究人員訓(xùn)練了一個基于深層神經(jīng)網(wǎng)絡(luò)的動力學(xué)預(yù)測模型,來幫助無人機適應(yīng)不同有效載荷,并用一個四軸無人機搭載重量未知的有效載荷來驗證模型效果。▲在無人機上裝載一個掛鉤,使其能夠吊起貨物二、預(yù)測模型:幫助無人機不斷優(yōu)化飛行動作神經(jīng)網(wǎng)絡(luò)動力學(xué)預(yù)測模型以無人機當(dāng)前的狀態(tài)和動作作為輸入。當(dāng)無人機裝載了有效載荷后,預(yù)測模型利用變分推斷(variational inference)方法,根據(jù)當(dāng)下有效載荷的質(zhì)量、系繩的長度等狀態(tài)參數(shù)快速推斷出后驗概率,幫助無人機適應(yīng)新的飛行狀態(tài)。該模型用長度為T的時序數(shù)據(jù)進(jìn)行訓(xùn)練,以此優(yōu)化神經(jīng)網(wǎng)絡(luò)的權(quán)重(weight)參數(shù)。研究人員假設(shè)有效載荷參數(shù)是未知的,用一個具有分布參數(shù)的潛變量(latent variable)K來表示它們,通過調(diào)整K值來模擬攜帶不同有效載荷的情況。在模型訓(xùn)練階段,研究人員手動駕駛載有不同有效載荷的無人機按照隨機軌跡飛行,并收集這部分訓(xùn)練數(shù)據(jù)。然后,研究人員運行元學(xué)習(xí)方法,使模型學(xué)習(xí)共享的動力學(xué)模型參數(shù)和對不同有效載荷的適應(yīng)參數(shù)。然后,研究人員檢測模型的訓(xùn)練成果。模型利用當(dāng)前任務(wù)的所有數(shù)據(jù)在線推導(dǎo)出最優(yōu)潛變量?;趧恿W(xué)模型的控制器據(jù)此規(guī)劃無人機動作,使無人機按照既定路線飛行。在整個飛行過程中,模型會持續(xù)儲存數(shù)據(jù),不斷推導(dǎo)出最優(yōu)潛變量、優(yōu)化無人機動作,直至到達(dá)目的地。三、無人機能負(fù)重完成躲避、裝卸貨任務(wù)研究人員用四軸無人機進(jìn)行了演示。為了使無人機能夠自行定位航線,研究人員在無人機上搭載了攝像機模塊。首先在設(shè)定飛行軌跡的情況下進(jìn)行演示。研究人員設(shè)定的飛行軌跡用紅色線條表示,模型實時規(guī)劃出的飛行軌跡用白色線條表示,無人機最終選擇的最佳飛行軌跡用藍(lán)色線條表示。根據(jù)模擬結(jié)果,無人機基本能夠按照指定路線飛行。研究人員還在設(shè)定方形飛行軌跡和圓形飛行軌跡的情況下進(jìn)行了演示,并對比了元學(xué)習(xí)算法模型和其他模型。結(jié)果顯示,元學(xué)習(xí)算法模型的路線錯誤更少。研究人員還指出,隨著元學(xué)習(xí)算法不斷適應(yīng),無人機的飛行性能會繼續(xù)優(yōu)化。在研究人員模擬出的幾種實際應(yīng)用場景中,無人機也較好地完成了任務(wù)。1、躲避障礙物2、撿拾、運輸、卸下貨物3、用指揮棒實時規(guī)劃飛行路線4、跟蹤目標(biāo)飛行結(jié)語:計劃進(jìn)一步提升模型自主性Facebook和加州大學(xué)伯克利分校的研究人員利用基于模型的元強化學(xué)習(xí)方法,有效提升了無人機裝載有效載荷飛行的能力。研究人員表示,將繼續(xù)進(jìn)行研究,致力于使無人機能夠完成更加復(fù)雜的有效載荷運輸任務(wù)。根據(jù)論文,目前該模型還需要研究人員指定有效載荷被撿起和放下的時間。接下來研究人員計劃開發(fā)一種算法,使模型能夠自主決定裝卸貨的時間。