看板 Soft_Job 關於我們 聯絡資訊
一般人能拿到的大數據資料 除了股市、政府公開資訊(例如氣象) 還有自己爬蟲爬網頁 之外可能還有什麼門路取得大量有品質的數據? 且不用花什麼錢的 一般人指的是沒有身在什麼學術/研究單位 或相關的職場單位 thanks -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 211.72.78.253 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1547774443.A.BED.html
pelicanper: 你這種問法的答案就是沒有,最少給個領域吧 01/18 09:24
william81615: 有品質 = 花錢整理過,你覺得對方為什麼要無償提供 01/18 09:32
neo5277: 國外是很多不過也都是本來就開放的,其他就要看相關社群 01/18 09:32
neo5277: 有沒有人放,剩下就是自己紀錄 01/18 09:33
novterm: kaggle啊 01/18 09:43
IhateOGC: 健保資料庫花錢就有摟 01/18 09:45
IhateOGC: 台灣醫療資料連整個家族都有紀錄 01/18 09:46
deniel367: Microsoft Research 01/18 09:46
vfgce: 內行人都知道健保資料庫和垃圾沒兩樣... 01/18 09:47
vfgce: 一個一天看上百個患者的醫生,你認為他的診斷碼會多正確? 01/18 09:48
vfgce: 更不用說為了開藥而硬加上去的診斷碼.. 01/18 09:49
vfgce: 診斷都有問題了,做出來搞笑的結論也不意外.......... 01/18 09:50
kokolotl: 美國官方很多問卷資料庫可以抓 以前玩過brfss 01/18 10:01
ChungLi5566: 嘉實資訊 20年前就開始賣金融資料庫 01/18 10:18
alihue: 想要有品質又不想花錢,去自己爬自己整理 01/18 10:29
abc0922001: 現在滿多資料政府都有開放OpenData了 01/18 10:32
sean50301: 我們系上教授很愛用健保資料庫發論文欸XD 01/18 10:37
vi000246: 跟詐騙集團買 01/18 11:59
kyrc: https://goo.gl/b6Ecet 01/18 12:01
purpleboy01: 曾經遇過期刊審稿意見說不要再用台灣健保資料庫了 01/18 12:16
lsk200000: github trending 01/18 12:17
kerkercheng: 花錢crowd sourcing呀 01/18 13:19
PoloHuang: 舊金山好像有opendata? 01/18 14:25
chocopie: 健保資料庫就是個聊勝於無的source 01/18 16:45
chocopie: 問卷資料又比健保資料更難處理 01/18 16:46
chuegou: 阿不就open data 01/18 19:33
bean0917: 九樓V大說這些有證據嗎? 01/18 20:49
bean0917: 剛好小弟也是這行的 01/18 20:49
bean0917: 您真的知道健保審查過程跟作法? 01/18 20:49
bean0917: 或許真的有這狀況但絕對是少數中的少數 01/18 20:49
bean0917: 不要以偏概全,不懂裝懂 01/18 20:49
chocopie: 他可能分不清甚麼是診斷碼跟醫囑 01/18 20:59
mathrew: 有品質就是有人整理過 所以... 01/18 21:42
viper9709: 推一二樓 01/19 00:59
rocking5566: Imagenet 01/19 02:20
vfgce: 呵呵,bean大,本人接觸到跟這方面看到的絕對不比你少.... 01/19 07:59
superpai: GitHub 01/19 07:59
vfgce: 就曾有健保審查委員自己親口說看不懂就刪了再說... 01/19 08:00
vfgce: 然後健保局還規定要刪一定比例.所以都先刪再說..反正醫院 01/19 08:01
vfgce: 一定會回覆... 01/19 08:03
vfgce: 至於健保一堆規範才是造就出亂給診斷碼的禍源... 01/19 08:04
vfgce: 真正有用的資料根本不會在健保資料庫... 01/19 08:10
vfgce: 醫學方面的研究,很多都是從自己醫院的資料庫再另外拉資料 01/19 08:11
vfgce: 但對於其他領域的人,根本摸不到也不懂,只好從健保資料庫 01/19 08:13
vfgce: 去玩一下皮毛... 01/19 08:14
ap954212: 中國政府 01/19 14:00
angusyu: 要馬兒好又要馬兒不吃草。你要不要當那隻馬 01/19 14:11
asa121: 請問有人知道製造業的資料要去哪邊找嗎? 需要自費的也可以 01/19 15:21
asa121: 謝謝 01/19 15:21
f496328mm: vfgce 刪資料有好有壞,好是提高品質 01/19 23:52
f496328mm: 壞是,刪 data 等於在挑 data,資料跟實際狀況會不同 01/19 23:53
f496328mm: 政府有 opendata 但品質堪慮 01/19 23:58
f496328mm: 除非醫院真正想研發 DATA 這塊 01/19 23:59
f496328mm: 不然資料庫都外包,品質真的很爛 01/19 23:59
f496328mm: 製造業的話,kaggle 有生產線分析的比賽 01/20 00:01
f496328mm: 真的要玩 DATA ,選國外的絕對比台灣好 01/20 00:01
q10242: 政府有 open data 你是說這個嗎 01/20 12:42
asa121: 已找到製造業數據,感謝f49提供相關資訊。 01/20 16:33
OhNo386: 你說的都是 google 一直做的呀 01/20 22:11
OhNo386: 做免費軟體或服務再從裡面撈你要的 01/20 22:13
vfgce: 健保資料庫頂多用於流病公衛,而且其中的labeling是有問題的 01/21 10:19
vfgce: 請小心服用.... 01/21 10:19
vfgce: 很多真正的醫學研究,用醫院的資料庫是因為真正有用的病人 01/21 10:20
vfgce: 資訊是存在醫院端的資料庫,不會上傳到健保資料庫去 01/21 10:22
vfgce: 資料庫的內容有沒有用,是看存的是怎樣的資料,跟外包沒有 01/21 10:24
vfgce: 很大關係.. 01/21 10:24
vfgce: 再差的醫院端資料庫,有用的東西可能還比健保資料庫有用. 01/21 10:25
vfgce: 健保資料庫其實比較像流水帳,除了資料量超大,跨院區外,並沒 01/21 10:26
vfgce: 有比醫院端資料庫好 01/21 10:26
taliao: AWS Public Dataset. 01/21 21:23