看板 Statistics 關於我們 聯絡資訊
※ 引述《backprog (back-propagation)》之銘言: : 小弟任職單位完全用 Python/C++ 等程式語言做資料分析的工作, : 成員都是電資相關科系/機器學習等背景, : 但是在敘述統計的解釋上經常有盲點,導致對於推論的結果不是很有信心。 : 最近想嘗試找一些傳統統計背景的人,但是同時懂程式設計的人不多, : R 又難以融入現有團隊,萬一離職也不好找人接手。 : 因此想請教一下版上高手,在比較前衛的資料分析領域中, : SPSS、SAS 等套裝軟體,是否有不及或超越 Python 之處? 小的正好R和SAS都還算熟,跟你分享一下最近的心得 先說說SAS超越python/R的地方 我覺得SAS最強的地方有兩點 第一點是古典統計,SAS很早期就開始發展了 在電腦運算還沒那麼強的時候,想對資料做推論的時候就需要仰賴學術上的統計方法 而SAS把這些方法都寫進核心中,讓使用者方便將資料套用在這些統計方法上 加上大公司背書,可以確保這些統計方法的運算是絕對正確的 (當然使用者用錯統計方法是另外一回事) R、python雖然也有很多統計檢定,但除了一些比較典型的模型以外 大部分都是一些open source,而由於每個package都是不同人寫的 對於資料的吃法可能也會大有不同,同一份資料要套用在不同的package時 可能會需要對資料轉換花很多工夫 第二點是資料倉儲 相較於R/python是每次把資料寫進記憶體上來說 SAS是以類似資料庫的方式來管理資料 在讀入資料後可以馬上定義每個變數的格式,直接產生一個實體的檔案 這點在套用模型或檢定方法的時候非常方便 而當資料"個數"(不是筆數)多,且結構複雜的情況下,也能比較有效率地管理 簡而言之SAS強大之處在於穩健與擴張容易 較符合企業整合各個部門或團隊的資料的需求 而R/python雖然沒有這些優點,但少了這些限制 開發速度較快,很多近年出現的統計方法,或是某些主題需要用到的特殊演算法 只要有想法就可以馬上投入實用 所以要說前衛的話,我覺得R/pytohn還比較前衛 ===================== 以上是單純就R/python和SAS的比較,接下來是關於推論的部分 事實上一般大學所教的統計都是所謂的"古典統計學" 著重的是"推論統計"而不是"敘述統計" 推論統計強調的是如何透過"隨機抽樣",從"小樣本"裡面看出"母體"的行為 並且根據數學推論,給一個客觀的標準衡量樣本與母體的誤差 早期因為電腦不夠力,或資料難以取得所以需要做這種事 但是現代資料探勘中,你計算的東西基本上就是整個母體了 雖然不知道貴公司是在處理甚麼資料 但同樣的盲點你請統計背景的人來一樣會有盲點 為什麼這樣說呢? 舉例來說,你今天把"所有"身高資料切成一段一段畫長條圖,發現身高愈高體重也愈高 所以你下結論,身高與體重呈正相關 你可能會擔心的盲點是(以下是我從原PO文章的猜想,有錯請更正) 我只是畫個圖這樣就能下這個結論嗎?如果未來新的資料進來一樣適用嗎? 身高與體重這樣的斜率夠顯著嗎? 諸如此類的問題 事實上對於這些問題,統計背景的人也無法回答 因為統計背景處理的問題是 抽了"一些"資料出來,這些資料所畫出來的東西 跟你用"所有"資料畫出來的東"一不一樣" 所謂顯著也只是在回答這個問題 綜合以上所述,不難看出為什麼推文提到生技領域SAS獨大 因為生技領域主要處理的就是古典統計的問題,這也是SAS強大的地方 所以我個人覺得SAS和R/python並沒有甚麼誰好誰壞 最重要的還是回歸到原本是想解決甚麼樣的問題 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.248.190.222 ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1488213211.A.FA8.html ※ 編輯: songhome (111.248.190.222), 02/28/2017 00:36:02
recorriendo: 怎麼會說資料探勘的東西是"所有"資料?? 02/28 03:02
recorriendo: 既然都提到新的資料 不就代表原來的資料不是"所有" 02/28 03:03
這邊要表達的是 傳統統計推論是從"一堆資料中"抽"一些資料"來推測"一堆資料"中的行為 現代資料分系是直接看"一堆資料"中的行為 而新資料這部分跟預測預測比較有關係,無論傳統統計還是現代分析 都要「假設"一堆資料"和"新的資料"行為一樣」 從這點來看,現代資料分析確實也是在做抽樣沒錯 而傳統統計則有一點"抽樣的抽樣"的味道在 因此才會說如果有盲點,請統計背景的人一樣有盲點
f496328mm: 現代資料分析 因為數據大 02/28 12:28
f496328mm: 多數人都把它看成母體了 事實上 你一樣是在做抽樣 02/28 12:28
※ 編輯: songhome (111.249.23.209), 02/28/2017 13:46:29
WTF1111: 推 03/02 11:10
chocopie: 推 04/22 02:10