
很多人都注意到,AlphaGo 的棋風有個有意思的特點:它很少下出「好棋」,也就是兇狠的殺招,並且還時不時似乎下出緩手。它局面從未大幅領先過,永遠只贏一點點。為什麼呢?
AI的棋風能不能更好看?
要訓練一個神經網絡,需要定義一個反饋函數,即告訴這個神經網絡怎樣的決策是好的。在 AlphaGo 的設計中有個重要的細節:訓練 AlphaGo 的神經網絡時所採用的反饋函數只依賴於輸贏,而同輸贏的幅度無關。換言之,對 AlphaGo 而言,贏一目的棋和贏十目的棋一樣好,它追求的只是單純的勝負而已。

很多人都注意到,AlphaGo 的棋風有個有意思的特點:它很少下出「好棋」,也就是兇狠的殺招,並且還時不時似乎下出緩手。它局面從未大幅領先過,永遠只贏一點點。為什麼呢?
要訓練一個神經網絡,需要定義一個反饋函數,即告訴這個神經網絡怎樣的決策是好的。在 AlphaGo 的設計中有個重要的細節:訓練 AlphaGo 的神經網絡時所採用的反饋函數只依賴於輸贏,而同輸贏的幅度無關。換言之,對 AlphaGo 而言,贏一目的棋和贏十目的棋一樣好,它追求的只是單純的勝負而已。
本刊載內容版權為 端傳媒編輯部 或相關單位所有,未經端傳媒編輯部授權,請勿轉載或複製,否則即為侵權。