看板 chess 關於我們 聯絡資訊
其實保木提出的Bonanza Method在Machine Learning中就是 Multinomial Logistic Regression,簡單來說就是做回歸, 它的想法很簡單,就是收集許多專家棋譜,讓後自動調整程式中的參數 把程式會出的棋步調整成跟棋譜中棋士下出的棋步一樣。 更具體來說,就是設計一個penalty function, 若程式下出的棋步跟棋譜愈不一致,penalty function的值就會愈大, 所以自動調整參數就是想辦法最小化這個function的值, 用的方法就gradient descent。 這樣自動把函數最佳化(無論是把它調到最大還最小)在自動控制、 系統模擬、機器學習、或任何工程領域中都很常見,保木專長的化工自然也不例外。 其實這方法在90年代電腦西洋棋中就出現了,叫comparison learning, 將棋之前也很多人試過,只是有很多因素要等到2006年左右才成功。 當然,函數最佳化方法很多,各有好壞, 像前文提到從自然演化得到靈感的演化式計算方法(如genetic algorithm etc.) 也是做得到,只是那些方法不保證一定會收斂, 另外激指則是用average perceptron做online learning,這方法比較在自然語言處理裡常見。 ※ 引述《NewYAWARA (朝霞之前奏)》之銘言: : ※ 引述《dharma (達)》之銘言: : : 伊藤:在將棋的領域中也是化學的研究者發現了化學的模式和將棋的模式是相同的,才有 : : 了飛躍式的進步。 : : http://koubokukei.blog128.fc2.com/blog-date-20120528.html : : 查「將棋 化學」 : : 沒有什麼相關的 : : 上文說的是指什麼啊 : : thank : 因為將棋軟體棋力大幅進化是從Bonanza開發出來後引爆的, : 而開發者保木邦仁本身就是物理化學專家。 : 不過他的模式與其說是和化學相像,不如說是和生物相像吧。 : 他的方式是將六萬張棋譜收集來後, : 把棋譜當作是外在環境、盤勢狀況當作是生命體, : 然後生命體會去尋找在這外在環境中,怎樣的發展最能適應該環境。 : 也就是類似的盤勢下,要怎麼落棋會最接近成功贏棋的走法, : 由這些棋譜為底來判斷,所以和進化的觀點比較像。 : 大概是像這樣吧@@ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 133.11.238.64 ※ 文章網址: https://www.ptt.cc/bbs/chess/M.1432533371.A.A3B.html
dharma: 推 05/25 16:49
jgj12321: 現在西洋棋的電腦軟體應該是較成熟的(首創+開發者很多) 05/27 09:23
kenny359259: 推詳細 06/01 14:00