Re: [問題] 資料分析

作者tigerrex (shun)

看板Statistics

標題Re: [問題] 資料分析

時間Tue Oct 27 22:20:52 2009

※ 引述《west1996 (焦了六年變脆了)》之銘言： : ※ 引述《tigerrex (shun)》之銘言： : : 這邊的資料為隨機抽樣一萬五千筆 : : 這邊指的是完完全全相同 : 隨機抽出來的一萬五千筆資料完完全全的只有兩個值，那故事就結束拉XD : : 舉例來說:這邊裡面的(x,y,z)的單位是角度 : : (x,y,z)=(80,70,60);(x1,y1,z1)=(80.01,69.99,59.98) : : 大概像是這樣的些微差距(0.01左右) : : 上例看起來應該算是無法明顯區分吧?因為不太懂標準在哪裡 : : 因為(x1,y1,z1)比較(x,y,z)是只要有些微差距就算是了，所以我想亂抽抽到可能無法 : : 解決吧@@" : 恩...我可能表達的不夠清楚吧 : 我的疑問是從你的敘述中（不管是第一篇或是這一篇） : 沒辦法給一個很完整的picture說明你的資料長什麼樣子 : 然後你現在碰到的困難在哪裡 : 我本來想問的是說 : 你的母體資料是屬於哪一種？只有兩個值或是很多值 : 你的樣本資料又是屬於哪一種？只有兩個值或是很多值 : 舉例來說 : 1.一家飲料公司推出開瓶集字的遊戲，要湊滿兩個字。這樣表示母體資料就是兩個值， : 樣本資料也是兩個值（假設沒有銘謝惠顧之類的），而且樣本資料不會有搞錯的情況 : （看到是哪個字他就肯定是哪個字），那這時候如果問是哪兩個字，每個字的比例是 : 多少，答案就是一直去買買到有兩個不一樣的字之後就知道有哪兩個字了；買了一定 : 的瓶數之後，就可以用樣本比例去推估母體比例了。 : 2.某家醫院有一種測量H1N1的快篩機器，現在想要知道社區內到底得病的人有多少。我 : 們隨機抽了一堆人作快篩。這種情況母體只有兩個值（得病、不得病），樣本也只有 : 兩個值，不過樣本資料可能是假的（機器判斷錯誤，相當於測量誤差），這個時候可 : 以找一群control去估計一下這台機器的false positive rate和false negative rate : 再根據這個資料去某種程度上的修正原始看到的快篩資料，再去估算母體比例。 : 3.一家工廠推出兩種不同尺寸的木材，但是我們不知道是哪兩種尺寸，個別生產比例又 : 是多少，只知道這兩個尺寸有明顯的差異（這裡的明顯指的是現有的測量工具可以輕 : 易分出差別）。我們可以去隨機購買很多的木材，然後一一去量測他的長度。這種情 : 況是母體只有兩個值（假設忽略工廠生產時的誤差），樣本有很多不一樣的值，但是 : 這些值很靠近兩種尺寸中的某一種，而且我們不會把A尺寸的木材當成是B尺寸的木材 : ，這樣只要買足夠多，就可以分別用兩群木材個別的樣本平均去估計這兩種尺寸，然 : 後用整體的比例去估計工廠生產出來的比例。 : 4.某一種化合物在理論的範圍裡已經被證明只可能存在兩種分子結構，這兩種結構只差 : 在三度空間中的分子夾角不同，但是我們不知道確實的夾角是多少，只知道夾角的差 : 異是接近或是小於現今科學上可以量測出來的最小極限。現在我們對不同的化合物樣 : 本去量測了一堆的值出來，這時候母體只有兩種未知的值，樣本可能有一大堆不一樣 : 的值，但是我們無法知道哪一個值應該是屬於母體中的哪一個角度，這時候可能就需 : 要用一些不一樣的分析工具去想辦法把我們看到的樣本區分成兩個group，再去對母 : 體的角度和比例作估計，而應該用哪一種分析工具又要看你的資料到底是怎麼樣的結 : 構。 : 照你的敘述我會猜測應該是比較接近4的情況，不過我也不敢肯定就是了，所以才會希 : 望你表達清楚一點。 : p.s.以上的例子有些可能過份的trivial，不過這是一個公開版，所以無法假設某個po文 : 者具備什麼樣的能力的統計知識（搞不好某個po文的只是高中生想作科展XD），因 : 此只能根據文章中提出的資訊假設所有可能發生的事情。硬擠出這麼多例子只是想 : 要表達說"在關於data和問題的背景資料不夠完全之下，很難給予一個適當的建議" : 因為適合的工具可能是天壤之別........... 首先很感謝您的回答我的問題是這樣的: 我的樣本資料是材料裡的結構組織，其中每個組織都是由許多晶體所組成。在我的分析下會得到三度空間裡的三個角度值(x,y,z)，也就是晶體內部的擺向座標軸透過沿X軸轉動x角度，沿Y軸轉動y角度，沿Z軸轉動z角度，而把晶體內部的座標軸與外部的座標軸重合。然而在同樣的組織中，應該會有同樣的晶體擺向，也就是說會有同樣的(x,y,z)，但是在我的觀察中發現有許多值有些微偏離(x,y,z)，偏離的角度不一而得到許多(x1,y1,z1)，但在分析的角度上會把此當成雜訊。所以我希望能夠透過統計的方式把一萬五千筆數據經過有效的處理後找出佔大多數(x,y,z) 三個角度值，並且找出它佔的比例。由於自己並非是統計相關領域的專才，之前所學也太過於淺薄，故希望能透過板上的能人們的幫忙解決此問題。感謝看完，下台一鞠躬。OTZ... -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.116.87.144

→ west1996:恩可以不過用寄站內信的好了我正好要去洗澡XD 10/28 00:56

推 west1996:推錯 = = 麻煩幫刪一下本來是要回水球的QQ 10/28 00:59

→ yhliu:不懂 "把晶體內部的座標軸與外部的座標軸重合" 之意. 10/28 19:47

→ yhliu:如 west1996 所回的 case 2, 現存疑問是 "雜訊" 的分布特性? 10/28 19:48

→ yhliu:這與上面我不懂的那句話可能有關. 10/28 19:49

→ yhliu:不論如何, 除非如 west1996 所回之 case 1, 否則 "樣本平均" 10/28 19:50

→ yhliu:似乎是 (x,y,z) 之一簡單而通常效果不錯的估計. 10/28 19:51