→ gogopacer: 數據我沒想過 之前練習時是拿網路上找的到的04/07 16:53
→ gogopacer: 不過要贏別人就是要有別人沒有的數據滿有道理04/07 16:54
→ gogopacer: 感謝回復04/07 16:55
推 followwar: 同一個MODEL 用GOOGLE的內部dataset train就低imagenet 04/07 21:48
→ followwar: 幾個點04/07 21:48
這說明了資料品質的重要性。事實上我的經驗告訴我預測準確度80%來自資料,20%來自演
算法。
再補充幾點為什麼業界更希望掌握資料而非演算法:
1. 演算法概念非常容易被抄,對台灣小公司而言一個核心研發人員被挖直接帶走,而資
料相對不容易帶走,也有法律保障。
2. 資料的累積是先行者的優勢,後繼者難以追上前者累積的資料,且隨著用戶越來越多
搜集速率也會有明顯區別。
推 marsdaddy: 同意此觀點。有些人預測未來中國的AI發展可能會比美國04/07 22:05
→ marsdaddy: 更先進,最主要的推論理由來自於中國13億人產生的data04/07 22:06
→ marsdaddy: 很可觀,以那樣規模的big data做基礎,AI發展將更快速 04/07 22:08
→ saltlake: 數據可靠度呢?04/07 23:01
數據可靠度很大一部分也取決於領域知識,你的搜集方式是否存在潛在bias直接影響到資
料品質,而這需要的絕非數學、編程等能力。
我特別想強調的就是大家往往更重視演算法而忘了資料的重要性,imagenet的初期完全找
不到資金就是因為大家覺得這研究沒什麼價值(看起來就像標註資料而已),但事實證明
他才是推動進步的核心關鍵。
※ 編輯: ching0629 (219.85.128.60), 04/08/2018 09:05:46
推 mmonkeyboyy: 是cea領域啊XD data 因為中國data相對好取得.... 04/08 09:48
→ mmonkeyboyy: CE領域才是 本來就是硬體在推動的 04/08 09:48
→ mmonkeyboyy: AI BIG DATA IOT 這三樣 如果能參透 都是一件事 04/08 09:49
→ geniusturtle: 把自己搞進醫院很簡單啊 04/08 12:05
推 mmonkeyboyy: imagenet 根據李飛飛自己說法 她也是邊做邊出這個 04/08 12:11
→ mmonkeyboyy: 想法 去收集 label 04/08 12:12
→ mmonkeyboyy: 我們常開玩笑 最後都是拼體力 還是當運動員好了 04/08 12:12
→ mmonkeyboyy: A G兩公司最近一直把一堆東西放低價請大家用 04/08 12:16
→ mmonkeyboyy: 請多仔細看那個條例 就是為了XXX 04/08 12:16
推 Altair: 推 重要的觀點 04/08 17:00
推 becherovka: 此文點出重點 04/09 09:52
推 faerie: 推 04/15 01:01
推 mdkn35: 類似imagenet的資料不公開 一堆影像辨識的都只能吃土啊... 04/16 22:40