看板 SENIORHIGH 關於我們 聯絡資訊
既然都有人點名惹 小弟我獻醜一下好惹 不過今天先不要講貝氏 貝氏作圖跟搭配公式講要花很多時間準備 先看看推文有人說到104的資料好惹 美國資料我現在懶得點 我期末考完再看看>< =========================================== 做資料科學的步驟第一項就就是資料如何收集 在104圖表下方 他都有寫說資料來源如何來 「 資料來源:104人力銀行履歷資料庫,該學系畢業生(含日/夜間部)填答薪資及職 務特性問卷而來,並由系統逐一檢驗,以確保資料的正確性。 圖表資料固定於每 月第一周更新,剔除超過一年的樣本;以確保資料的時效性。 」 上面是引用自104網站 可是 第一個很大的缺陷應該大家都能看出來 就是樣本數太少 我沒有特別去估算一間學校的畢業生有多少啦 不過抓一下 大係一個年級大概都80~100吧 現在2020 不看最近建立的學校 畢業生的總數至少都有2000左右 那這樣抓的話 他整體人數都只有抓 200人左右 這個是數量非常少的 很難做大樣本分析 不過沒關係 統計如果只會大樣本分析 早就被淘汰了 那接下來第二個步驟 我們要做model 可是 這個網站 的model 方式 只有做order statistic 簡單的說就是大小排序而已 很明顯 從網站給的分佈 我們只知道 幾%的人在哪個區塊 但要如何從樣本推到母體 從我的角度看來是無法啦 畢竟只從order statistic中 很難看出任何的資訊 依目前所學過的 我猜想 poisson 或是 multinomial 可能會好些 不過還是要回頭做一些假設檢定來看看model合不合適啦 =========================================================== 除此之外 主張104的統計無用還可以用以下角度 1.統計時有沒有把樣本背景盡力消除 講白一點 就是高中的不變變因有沒有確實處理好 這個可以透過分類方式處理 (這裡很明顯沒有) 或是用大數據的方式來稀釋這些雜訊(這裡也沒有) 因此很可能 薪資跟科系只有相關性 而缺乏因果關係 2.另一個問題是發明民調的人(我忘記叫啥了QQ) 也犯的錯誤 就是他今天搜集的資料 已經是condition在 會使用104找工作填問卷的前提了 這就是很容易出現的資料搜集偏差 可能這些人有共同的某些特質 例如薪水較高的理組 薪水較低的文組等等 都是可能會出現的問題 其他的還有一些關於資料上的問題 就可以連接到貝氏理論了 如果有人想聽下次再打 我要去念期末惹QQ ======================================= BTW 如果想知道一個科系可以幹嘛 薪水多寡 其實每個係辦都會去統計自己系上同學 你去找係辦都可以比104準喔 -- 找到票了!!是同意!! 恭喜我大114校長連任 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.114.207.159 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/SENIORHIGH/M.1591978346.A.255.html
LaAc: 推 06/13 00:24
aristoIris: 推 06/13 01:49
afflic: 你以為系上統計的就比較準? 06/13 05:06
我們系是完整性資料建檔 雖然樣本數也大概只有畢業的1/2~2/3填 可是至少都還沒 做transformation 可以說是原始資料 這是資訊量最多的那種了吧
afflic: 你可以說104不準,但你也找不到更好的標準 06/13 05:06
geminitw: 可以說結論嗎? 06/13 07:48
104沒辦法為原來那篇佐證 資料的歸納能力太糟
WanYC: 推 06/13 08:51
NomeL: 系上統計肯定比任何求職網準啊 06/13 09:57
MT6797: 算各有參考性吧,理工科畢業發展前段的不會用104,發展後 06/13 11:30
MT6797: 段的不會回報系上,一個偏低估一個偏高估。 06/13 11:31
shawyj: MT說的貼切.很多發展比較不順的系友不會回報或參加同學會 06/13 11:36
shawyj: 我們班同學會其中ㄧ餐常是大咖同學請的 06/13 11:38
MT6797: 1/2~2/3畢業生回報這只有剛畢業那幾年吧?我幫忙過系友召 06/13 11:38
shawyj: 没那種身分要去買單也會不好意思 06/13 11:40
MT6797: 集,畢業五年十年後不太有人鳥系辦了,會熱情參與的大概只 06/13 11:40
MT6797: 有該屆系學會長、榮譽系友的死黨掛。 06/13 11:40
我是不知道其他科係怎麼樣 不過依照我們科系而言 資料今年線上回報而已 所以很新 因為不記名 所以有放在係上網站公開可以查詢 甚至還有獨立的資訊包含你之後的研究所 畢業年數 工作名稱內容等等 如果有心可以做到 只是看你想不想做
MT6797: 出國先不談,台灣理工科發展好的主要都是大型上市公司,薪 06/13 11:41
MT6797: 資結構非常死,圈子內都知道行情在哪,這幾年甚至要求公布 06/13 11:42
shawyj: 我們這種魯蛇系友也不好意思回報系上 06/13 11:42
MT6797: 員工薪資平均數,打聽或查詢一下就知道了。 06/13 11:43
afflic: 而且自己系上的可能好查一點 06/13 11:44
afflic: 不是自己系上的就難了 06/13 11:44
afflic: 可能你系上的統計比較完整,但很多人是不鳥系辦的 06/13 11:45
afflic: 104這種公開資訊已經是算相對準確了 06/13 11:47
104公開資訊沒錯 可是資料上的缺陷我點名在文章內了 這是明顯錯誤的資訊 你說我雞蛋裡挑骨頭我也沒辦法 不過我先講結論 我認為如果是104這種資料 我寧可不看 推想過程我之後再另外回一篇文好惹 畢竟這篇也只有回應原文章下面的回應 沒有回應到原作者的想法
afflic: 畢竟他們專門做求職的,樣本來源廣 06/13 11:47
我看不出來樣本來源廣
afflic: 除非你能提供更好的統計資料 06/13 11:48
他們或許拿得到樣本 但他們處理樣本的手法很糟
afflic: 不然我覺得你只是在雞蛋裡挑骨頭 06/13 11:48
afflic: 不看104,請問你看什麼呢? 06/13 12:01
afflic: 不是所有系上統計的都很完整哦 06/13 12:01
afflic: 而且跨系的又怎麼辦? 06/13 12:01
這問題請容許我再用一篇文回應 很難用幾句話完只說明
afflic: 不過現在台灣上市公司有被要求公佈非主管總薪資就是 06/13 12:03
afflic: 除一下員工人數可以大概看個輪廓 06/13 12:04
afflic: 科技業板好像有人整理過可以看一看 06/13 12:04
MT6797: 你們連畢業20年的都還有1/2以上回報?這在大系裏滿不可思 06/13 12:18
MT6797: 思議,先別說混不好的不願意丟臉,光是還能聯絡上那些人就 06/13 12:18
MT6797: 非常厲害,通常畢業十年就失聯快一半了。 06/13 12:19
MT6797: 104一定偏低估啦,至少理工業界生態是這樣,拿104當作新人 06/13 12:22
MT6797: 起薪或後1/4位數可能有一定參考性。 06/13 12:22
我們科系只有辦十多年 算是小係吧 不過有校友的社團 算活絡 這也是其中一個原因吧
afflic: 不過不排除104裡面有獵頭的數據 06/13 12:28
afflic: 不過這種不透明的東西要客觀精準評估的確很難 06/13 12:30
afflic: 人均GDP跟人均所得都不知道差多少了 06/13 12:30
ganhua: 推 06/13 12:31
afflic: 25百分位數跟75百分位數也不知道 06/13 12:31
afflic: 很可能得出人類平均一顆蛋蛋的結論 06/13 12:31
NomeL: 難道你畢業20年還會用104? 06/13 12:51
afflic: 104上面還是有主管職啊 06/13 12:58
NTUwhore: 原文底下一堆腦殘 推這篇 06/13 14:41
ccjg4673: 把少為教的學以致用 06/14 02:59
超愛少為的 他是個超好的教授
wen17: 民調先生用電話調查當時美國某地的民眾投票意願 很穩 06/14 03:28
wen17: 但是因為當時電話出來沒多久 有錢的人才有電話 06/14 03:28
wen17: 所以GGGGG 06/14 03:28
wen17: 假設母體有錢人占10% 窮人站90% 而且貧富影養投票意願 06/14 03:33
wen17: 這種偏差就讓這民調GG了 06/14 03:33
※ 編輯: kevin1212 (140.114.207.159 臺灣), 06/14/2020 08:54:30