專屬客服號
微信訂閱號
全面提升數據價值
賦能業務提質增效
【產業鏈圖譜 | 人工智能產業鏈圖譜_人工智能產業鏈全景圖】
2018年12月,來自谷歌大腦的科學家們進行了人工智能系統研發。此次研發能夠讓機器人學會自行走路。
我們可以在研究人員視頻資料中看到,四足機器人在走一個緩坡。在視頻開頭的四足機器人Minitaur走路還不夠穩定,有時候在搖晃,有時候停止不前,整個過程都走的十分緩慢。而在四足機器人進行Minitaur學習的18分鐘時,四足機器人可以進行穩步前進了,隨著后期的學習時間增加,機器人走路的穩定性也在不斷提高,時間增加到快兩個小時時,機器人已經能完成平穩的走過緩坡。
通過觀察機器人的學習視頻,我們可以看到學習對機器人完成自我行走的作用。同時,這項人工智能算大能夠教會機器人走熟悉的地形。
強化學習的核心是一個概念,即最佳的行為或行動是由積極的回報來強化的。機器和軟件代理使用強化學習算法,通過以環境的反饋為基礎來確定理想行為,這是機器學習的一種形式,也是人工智能的一個分支。
根據問題的復雜性,強化學習算法可以在必要時隨時間保持適應環境,以便長期獲得最大的回報。一個通過強化學習來學會行走的機器人將通過嘗試不同的方法實現目標,獲得有關這些方式成功的反饋,然后進行調整直到達到行走的目標。大步伐會讓機器人摔倒,通過調整步距來判斷這是否是保持直立的原因,通過不同的變化持續學習,最終能夠行走。以上說明,獎勵是保持直立,懲罰就是摔倒,機器人基于對其動作的反饋信息進而優化并強化。強化學習需要大量的數據,這就是為什么這項技術的第一個應用領域是模擬數據,如游戲和機器人。
盡管處于強化學習的早期階段,但仍有一些應用和產品開始依賴這種技術。公司開始使用強化學習解決連續性決策問題,同時強化學習支持專家決策或自動化決策處理。
但強化學習也有其局限性。它需要大量數據,在某些情況下需要數萬個樣本才能獲得良好的結果。這就需要四足機器人Minitaur像阿爾法狗那樣進行多次訓練,但過多的訓練可能會對四足機器人造成損壞。
但是此次的訓練也存在不足,即機器人在完成一次行走路徑后,需要手動將機器人放回原點。這個過程有些繁瑣。但是只需兩個小時完成機器人的學習,也被稱贊為“AI是個好老師”。
本文由五度數科整理,轉載請標明出處,違者必究!
請完善以下信息,我們的顧問會在1個工作日內與您聯系,為您安排產品定制服務
評論