-
網易伏羲論文入選AI頂會NeurIPS:優化算法提升強化學習效率
2020/10/10 12:01:21 來源:消費新媒網 【字體:大 中 小】【收藏本頁】【打印】【關閉】
核心提示:近日,神經計算和機器學習領域極負盛名的頂級會議NeurIPS(Advances in Neural Information Processing Systems, 簡稱NeurIPS,前稱NIPS)揭曉論文收錄名單近日,神經計算和機器學習領域極負盛名的頂級會議NeurIPS(Advances in Neural Information Processing Systems, 簡稱NeurIPS,前稱NIPS)揭曉論文收錄名單,網易伏羲實驗室的論文《學習利用獎賞塑形:獎賞塑形的新方式》(《Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping》)入選,凸顯了國際頂尖的科研實力。
NeurIPS(神經信息處理系統大會)是人工智能、機器學習和計算神經科學等領域的頂級學術會議,也是中國計算機學會人工智能領域A類推薦會議之一。隨著深度學習技術帶來的機器學習領域跨越式發展,NeurIPS會議的投稿數量和參會人數也逐年遞增。本屆NeurIPS的投稿量達到了9454篇,創歷年新高,其中1900篇被選為大會論文,錄用比例僅20.09%,火爆程度可見一斑。
網易伏羲在論文中重點研究的“獎賞塑形”(Reward Shaping)是一種將先驗知識轉化為獎勵函數,從而提高強化學習算法效率的有效技術手段。目前,網易伏羲的強化學習技術已成功在《潮人籃球》、《逆水寒》等游戲中落地,而利用先驗知識來設計和構造有效的附加獎勵函數常常是項目能夠取得進展的關鍵之一。
不過,尋找優良的附加獎勵函數需要比較專業的領域知識以及反復迭代的人力投入。同時,由于涉及到人的操作,目前的一些方法將規則性的知識轉化為算法能夠理解的數值獎勵時,往往也會將人的認知偏差引入其中,對強化學習算法帶來負面的影響。舉例來說,在設計《潮人籃球》游戲機器人的附加獎勵函數時,如果把握不好對傳球動作的獎勵值的大小,比賽中將會出現球員之間一直進行相互傳球而不進攻的尷尬場面。
為了避免上述問題,網易伏羲此次入選的論文首次提出自適應地利用給定的附加獎勵函數的方法,讓學習算法能判斷不同狀態下對應附加獎勵的好壞,并選擇性地加以利用。
在小車立桿和MuJoCo環境的一系列實驗結果表明,網易伏羲所提出的算法,不但能夠分辨出附加獎勵的好壞并選擇性地利用,甚至還能夠將有害的獎勵值轉化為對學習有幫助的獎勵值。
簡單來說,網易伏羲提出的算法不僅能讓人工智能的強化學習效率變高,還能幫助人工智能篩選出正確的知識,讓人工智能的學習更加準確。

強化學習是網易伏羲實驗室重要的研究方向之一。為了使虛擬世界更有真實度和多樣性,游戲中常常需要大量的NPC、Boss怪、匹配的機器人等。傳統AI依靠開發人員手工編寫行為邏輯,效果不并理想,成本又非常高。加入強化學習技術后,由算法通過不斷學習實現對AI的控制,能夠更好的解決這些問題,讓游戲角色的行為更加靈活多樣。
強化學習還被大量應用在游戲開發中的測試環節。傳統測試流程依靠人肉測試或者寫腳本測試,日常工作量大、重復勞動多、內容復雜多變,還常常會造成測試覆蓋率不足的問題。智能測試服務用算法解放人力,以強化學習增加測試強度,以進化算法增加測試廣度,能夠實現更低成本、更高覆蓋的測試,保障游戲的安全和品質。
網易伏羲實驗室成立于2017年,是國內首家游戲人工智能研究機構。為眾多網易游戲產品提供前沿、高質量AI技術應用的同時,網易伏羲實驗室專注文娛領域的研究與應用,研究方向包括強化學習、圖像動作、虛擬人、自然語言、用戶畫像等。在學術研究方面,網易伏羲實驗室同樣擁有頂尖水平,目前已經發表國際頂會論文58篇,專利100余項。
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如有侵權行為,請第一時間聯系我們修改或刪除,郵箱:cidr@chinaidr.com。


