看板 NCTU-STAT99G 關於我們 聯絡資訊
恭喜開版成功, 為慶祝順利開版, 第一次作業的繳交時間延長3天. 改為7月18日中午12:00以前繳交完成. Homework#1: Due: July 18, 2010 (Thursday) 12:00以前 (逾時三日內可補交,但會扣分;逾時超過 三日將不再接受繳交) Note: 於截止時間前將寫好之程式(H1P1代表第一次作業第一題,依述類推) 以及程式使 用說明的文字檔,以電子檔傳至闕棟鴻信箱chuehtunghung@gmail.com, E-mail標題為 統計計算語言作業一(u9126802闕棟鴻),也要求讀取回條,以確定老師有收到信件。 1). 試利用R語言,撰寫一個程式,在給予一個資料庫檔案以及一個目標檔案後, 可以將在資料庫檔案中有在目標檔案出現過的變數篩選出來,並將該列的數據輸出, 對於在資料庫檔案中有重覆出現的變數,請再使用一個參數p,讓p=All, 代表將有在資料庫檔案中重覆的變數直接顯現,p=Mean,代表以平均數來代表重覆的 變數,p=Median,代表以中位數來代表重覆的變數,並計算該程式執行所需之時間。 請參考下列例子。(40%) [Hint: Possible used function: is.element, data.matrix, read.table] (資料庫檔案) Exp1 Exp2 Gene1 1 3 Gene3 3 6 Gene5 8 8 Gene3 4 2 Gene8 2 1 Gene3 2 1 Gene4 7 5 (目標檔案) Gene1 Gene3 Gene4 P=All則輸出 Exp1 Exp2 Gene1 1 3 Gene3 3 6 Gene3 4 2 Gene3 2 1 Gene4 7 5 P=Mean則輸出 Exp1 Exp2 Gene1 1 3 Gene3 3 3 Gene4 7 5 P=Median則輸出 Exp1 Exp2 Gene1 1 3 Gene3 3 2 Gene4 7 5 2) 在Machine Learning中,我們常會遇到的資料型態是一群Attributes(在統計常稱 為independent variables),以及一個有興趣分類的class level(在統計中常稱為 dependent variable),如在iris的資料中,Species即為class level而Sepal.Length, Sepal.Width, Petal.Length及Petal.Width即為attributes。試撰寫一程式,在給予此 類型的資料時(最後一行變數為class level,其它行的變數皆為attributes),我們可 以畫出一個2×2的圖表,其每個細圖包含了Scatter plot(different color with different class levels), Boxplot, plot density, histogram(display the number experiments for different class levels)。 同時讓不同的class levels在圖型中用不同的顏色表示。(20%) [Hint: Possible used function: Par(mfrow=c(m,n)), plot, boxplot, density, hist] 3) 給予一個上述的資料格式,試撰寫一個程式,同時利用RWeka裡的classification 方法,包含J48 classifiers (J48), naive Bayesian classifiers (NB), k-nearest neighbors classifiers (IBk), classifiers, Support vector clssifiers (SMO), Logistic regression classifiers (Logistic)等分類法去進行 分類,並輸出包含Accuracy, Precision, Recall and F-measure等資料。同時整理 成一個表格。分別以Training data set 以及Leave one out cross validation 的方法去分析。(40%) [Hint: Possible used function: factor, J48, NB, IBk, SMO, Logistic, Weka_control] (Package: RWeka) Useful link: http://cran.r-project.org/web/packages/RWeka/RWeka.pdf http://www-users.cs.umn.edu/~kumar/dmbook/index.php#item4 (注意:作業請務必繳交,否則將以0分計算,如無法順利完成,可先針對固定資料進行 分析。例如在題目一中的資料庫檔案(excel中5000筆資料)或是上述例子(7筆資料) 分析,以及在題目二及題目三可以只針對iris的資料進行分析。) ps.對了,最後祝大家暑假修課愉快喔~~~ -- -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.113.114.208 ※ 編輯: micropath 來自: 140.113.114.208 (07/09 11:36)
ww770829:這是老師嗎QQ 07/09 21:09