第二次社統作業的幾個問題
STATA的部分,有同學注意到”年齡”這個選項上有人拒答,標籤為”98 ”
(在此提醒同學 分析某變數前要養成先用tab確認一下的習慣)
有同學用drop if A2Y==98來處理
但不建議這樣做,會把整個case都變不見
只有分析年齡沒有問題
但等到分析性別的時後就會發現少一個資料點了
Drop這個指令 會砍掉整個variabe或是整個case
(翻成白話 一次砍一整行或是一整列 無法砍一小格一小格)
drop擅長處理的狀況如下
資料合併檔案過大 ram不夠大電腦吃不下資料
這時候可能要先把模型建好 然後把不需要的變數和有missing value的樣本點丟掉
當然ram不夠大的問題也可以用錢解決XD
以你們現階段而言
比較好的處理方式是在sum時加入條件
sum age if A2Y!=98
sum age if A1==2 & A2Y!=98
sum age if A1==1 & A2Y!=98
在過幾堂課學到RECODE時,用RECODE就比較方便了
因為他可以把他變成missing value而不影響其他資料
另外在"用if 條件陳述計算60歲以上的人數有多少?"或以下等題目時
有些同學用tab age if age=>60 (有些同學沒有加"="但無所謂啦)
這樣會列出一長串佔空間
建議用sum age if age=>60
然後看obs(個數)這個選項就可以了
--
在上午課程的部分,關於如何測量教育程度以及屬於哪一個尺度,同學有幾種回答方法:
A.順序尺度。這是大部分同學的回答,將他們區分成國小、國中、高中、大學、碩
士、博士等,有一定的順序但差距間並不不等價。(有同學沒有談到不等價差距
的部份,這樣是不足的)。
B.少部分的同學注意到職業教育無法與學術教育共量,以及自學和正規教育不一定
有順序性,因此主張採用名目尺度。這種說法比上述得更為細緻。提醒同學在分
析教育資料時一定要注意到職業教育和學術教育的差異,譬如某段時間台北工專
和建中可是同樣等級的,與現今自然有很大差距,不能夠單用”高中”兩字就草
草帶過。(當然是否要為此調整,還是要看實際分析上的需求)
C.有些同學提出一份涵蓋幼稚園到博士的一份測驗卷,用此來衡量。這種方式固然
可以解決自學的問題。但是這樣寫的同學也發現到到了大學以上這樣的方式就會
出現很大的問題。我個人認為一個更根本的問題在於,當你用這份測驗去衡量離開
學校30年或3年的人,就算同等學歷也會有很大差距,更不用提這之間教材的變化
了。
D.這次幾乎沒有人提到以教育年數來衡量教育程度。這個作法經常被使用,雖然只是
為了方便,而招致相當多的批評。但這個作法能捕捉到[教育程度作為承受「耗在
學校裡」這一時間損失的能力]。在此種作法時,教育程度就是比例尺度,適合初
階的統計者做回歸分析。
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.112.4.235