看板 NTUE-CS100 關於我們 聯絡資訊
* 各章的本章摘要是重點 * 英文出題 CH 3 P.13 資料探勘步驟 步驟一:定義問題 步驟二:資料的蒐集與選擇 步驟三:資料的預備 步驟四a:選擇一個模式或演算法 步驟四b:選擇模式或演算法的參數 步驟五:訓練/測試資料或應用演算法 步驟六:模式最後的評估和整合 P.39 On-Line Transaction Processing, OLTP (為什麼他說要考OLAP,可是唸的是OLTP的內容呢...) 線上分析處理 On-Line Analytical Processing, OLAP (必考) 特性:1. 針對工商企業資料分析需求而設計,是一種新的業務。 2. 協助工作人員執行管理決策。 3. 同時間不會有太多使用者同時使用系統。 4. 儲存的資料偏重較高層級的彙總資訊。 5. 資料的來源是OLTP。 6. 資料庫的內容是歷史性的資料,不會隨時加以變更。 7. 資料的處理不是以交易為單位,使用者的要求會佔用大量的系統資源。 8. 設計資料庫不是採用正規化的設計方式。 9. 將分散各處的異質性資料整合到單一的資料集合之中。 10. 使用適合資料分析的結構來儲存資料。 11. 包含由日常交易資料轉換而來的資料,在資料倉儲中的資料必須完整且正確, 以提供管理者決策分析。 12. 要能夠及時從資料倉儲中取得資訊。 13. 資料倉儲的資料在內部必須包含易於使用的瀏覽工具。 P.41 資料立方體(Data Cube) (有考的話,請畫出Cube的圖) 將資料倉儲的資料以多維度(Multidimensional)資料模式儲存。 概念與目的:將經常被分析人員所要求的測量值加以具體化或量化,並將測量值具體化後 儲存在一個多維度資料方塊,以供企業建立決策支援系統、知識探勘分析工 具或是其他應用。 P.80 資料特性的減量 (四點) 1. 資料量減少,資料探勘的演算法因而可以運行得更快速。 2. 高度的資料探勘處理正確率,因此可以產生較好的樣式。 3. 資料探勘後的結果較為簡單,因此可以更簡單的瞭解並使用探勘之後所得的結果。 4. 因資料特性的減少,當再次進行資料蒐集的時候,可以不用浪費太多時間在蒐集不 相關或不需要的資料,同時也可以減少下一次資料的預處理中特性減量的時間。 P.95 本章摘要 1. 資料預備通常包括了資料的預處理與資料的減量。 資料的預處理的主要目的在於清理資料中的雜質、不完整或是不一致的資料, 而資料減量的主要目的則是要減少資料或是資料維度的數量。 4. 當發生資料不完整的情形時,可以利用人工、自動化或是預測的方法來填補遺漏的 值。資料異常的狀況則可以利用Binning方法、叢聚方法、人工處理與電腦處理結合 的方法、回歸方法等進行處理。而當有不一致情形時,則需要對於這些資料進行資 料的整合及資料的轉換工作。 CH4 P.100 關聯規則(Association Rule) (案例:啤酒+尿布、報紙+牛奶) 又稱為購物籃分析(Market-Basket Analysis, MBA)。 是從大量的資料集合中,探勘在資料間具有相互關係的隱藏知識。 P.127 本章摘要 1. 關聯規則,通常又稱之為購物籃分析,其主要目的在大量的資料集合中,探勘在資料 間具有相互關係的隱藏知識。 6. FP-Growth演算法,為以FP數資料結構為主的一種演算法,這個方法的主要目的乃是 針對Apriori演算法對於大量的資料無法有效率處理的缺點,加以改進的一種演算法 CH 5 P.132 分類法 (classification) 優劣評估法: 1. 預測準確度 2. 速度和延展性 3. 健全性 4. 延展性 5. 可解釋性 (耶?重複了。課本GJ) P.136 決策樹(Decision Tree)分類法 (建構) 1. 將訓練樣本的原始資料放入決策樹的樹根。 2. 將原始資料分成兩組:訓練資料、測試資料。 3. 用訓練資料來建立決策樹,在每個內部節點,依據資訊理論(Information Theory) 來評估選擇哪個屬性繼續做分支的依據,又稱節點分割(Splitting node)。 4. 用測試資料來進行決策樹修剪,修剪到決策樹的每個分類都只有一個節點,以提升 預測能力與速度。亦即經過節點分割之後,判斷這些新內部節點是否為樹葉節點; 若否,則以新內部節點為分支的樹根來建立新的次分支。 5. 重複1~4,直到所有的新內部節點都是樹葉節點為止。 P.160 模糊推論(Fuzzy Inference)系統 架構 (圖5.12) CH 6 P.178 叢聚分析法 (Clustering) defination, steps Def. 將一群擁有相異性質的資料(個體),區隔為數個同質性較高的資料群體(叢聚)。 Step: 1. 樣式描述 (包括特徵的選擇或萃取) 2. 樣式間的相似度計算 3. 分群 4. 資料的摘要 (視實際情況決定是否需要進行此步驟) 5. 輸出的評估 (視實際情況......................) P.225 主成分分析法(Principal Component Method) 以潛在因素對行為變數之共同性產生最大貢獻為原則,逐一萃取k個潛在因素的方法。 CH 7 P.228 類神經網路 (Artificial Neural Network, ANN) def. 是一種計算系統,包括軟體與硬體,它使用大量高度連結的人工神經元來 模仿生物神經網路的能力。 CH 8 P.267 應用資料探勘技術在市場行銷的方法與循環 1. 行銷問題的定義 (Identify the Marketing Problem) ↓ 2. 利用資料探勘技術將資料轉換為可用的資訊 (Transform Data into Actionable Information Using Data Mining Techniques) ↓ 3. 運用資料探勘所得的資訊 (Using the Information for Action) ↓ 4. 衡量使用探勘所得資訊後的成效 (Measure the Performance) ↓ 1. .... P.271 常用於市場行銷領域的資料探勘技術 (七種) 1. OLAP分析 (Online Analytic Processing) 2. 購物籃分析 (Market Basket Analysis; Association Rule) 3. 決策樹分析 (Decision Tree Analysis) 4. 群聚分析 (Clustering) 5. 視覺化技術 (Visualization) 6. 估計及預測 (Estimation and Prediction) 7. 資料的敘述 (Description) P.289 六個步驟 圖8.14  ̄ ̄ 商業瞭解 >> 瞭解之前規劃的行銷活動 >> 資源清單 >> 情況的評估 >>  ̄ ̄ ̄ ̄ 目標的模式化 >> 初始的專案計畫 資料瞭解 >> 初始的資料蒐集報告 >> 將資料匯入到Clementine >> 資料描述 >>  ̄ ̄ ̄ ̄ 資料品質的驗證 >> 選擇工作資料 >> 發展初始模式化方法 資料預處理 >> 選擇屬性和資料集 >> 資料清理 >> 衍生新屬性 >> 整合資料來源 >>  ̄ ̄ ̄ ̄ ̄ 資料調整、模式化與評分 模式化 >> 評論模型化方法 >> 產生測試設計 >> 設定模式化流動 >> 評估第一次模  ̄ ̄ ̄ 式化結果 >> 調適模式參數 >> 最後模式評估 >> 評論流程設計 評估 >> 評估結果 >> 品質確保 >> 決定下一步驟  ̄ ̄ 部署 >> 計畫評分 >> 計畫監控與維護 >> 套用預測模式 >> 運行活動 >>  ̄ ̄ 評估活動產出 >> 產生最終報告 >> 評論專案 CH 9 P.302 顧客終身價值 (Customer Lifetime Value) 定義、公式。 Def. 是指在未來一段時間之內,企業或廠商可以從個別顧客獲得之利潤的淨現值。 公式: 顧客價值(CV) = 利益(R) ÷ 成本(C) 功能性利益 + 情感性利益 = ────────────────── 貨幣成本+時間成本+體力成本+心力成本 P.325 資料探勘應用於電信產業流程 圖9.7 CH 10 P.334 網路探勘(Web Mining) 利用資料探勘的技術於全球資訊網上,進行發掘知識以期能夠更有效率的分析全球 資訊網上的資料。 P.336 網路內容探勘 (Web Content Mining) (五點) 應用:群聚分析、關聯規則、語意網路(Semantic Web)、 搜尋結果的探勘、影像探勘。 CH 11 P.396 投資組合理論(Portfolio Theory) 定義 強調投資標的物是由一種以上的產品所構成,並透過多元化投資的策略將有限的資金 分散到各種投資的工具上,分散投資於單一產品所帶來的非系統風險。 P.398 圖11.4 (必考) 選取資料 處理資料 轉換資料 探勘資料 知識合併 財金 → 投資資訊 → 投資組合 → 類神經網路 → 最適投資組 → 投資組合 資料庫 │ 策略分析 │ 評估模型 │ │ 合資金配置 │ 領域知識 ↓ ↓ ↓ ↓ ↓ 選取資料 前置處理 轉換資料 資料探勘 知識萃取結果分析 CH 12 P.420 知識管理 對不起,我找不到他想考哪 orz P.421 表12.3 功能 使用技術與工具  ̄ ̄ ̄ ̄ ̄  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ 知識搜尋 全球資訊網、電子全文檢索系統、搜索引擎、辦公室群組軟體、 內部區域網路與企業間區域網路(VPN)、知識入口網站 知識處理 專家系統、類神經網路、模糊檢索功能、智慧型代理人、 機器學習、文字探勘、文件管理 知識傳送 WWW、E-mail與 延伸標記語言 整合 └→ 它是XML唷 知識儲存 資料庫、知識地圖、數位圖書館 知識溝通 WWW、E-mail、電子留言欄、內部區域網路、虛擬社群、VoIP、P2P群組軟體 知識分析 專家系統、決策支援系統、電腦整合製造系統 P.424 圖12.8 P.439 本章摘要 2. 6. 7. 2. 依資料萃取的程度與應用目的不同觀點而言,資料可被分為資料、資訊、知識、智慧 四個不同層級。 資料經過特定目的與需求而進行分析整理之後,即能變成有用的資訊; 資訊再經過學理之歸納或演繹彙整之後,則變成為人類的知識; 而有效的運用知識以輔助決策,則是智慧。 6. 知識管理程序包括知識移轉、知識流通、知識轉換、知識創造、知識累積、知識擴散 以及知識整合。 7. 資料探勘應用的實例,有知識搜尋在知識入口網站的應用、知識處理在文件管理上的 應用、知識傳送在延伸標記語言上的應用、知識儲存與知識地圖的整合、知識溝通在 虛擬社群上的應用以及知識分析應用在電腦整合製造系統上的介紹。 CH 13 P.455 文字探勘 (Text Mining) 利用資料探勘的技術,對於半結構化或非結構化的文字資料進行處理,以發掘有 意義的樣式或是知識。 P.466 影像探勘的領域 醫學、氣象、影像處理、搜尋引擎、軍事。 P.468 影像探勘的技術 物件識別(Objective Recognition)、影像的擷取(Image Retrieval)、 (考)影像的索引(Image Indexing)、 影像的分類與叢聚(Image Classification and Clustering)、 關聯規則探勘(Association Rule Mining)、類神經網路(Neural Network) * 影像的索引技術 一個快速且有效率的影像資料擷取機制是非常重要的。 大部分是以相似度為基礎的影像擷取方法, 另一種方法是先利用多維度的索引建立方式,來加快索引建立的效率。 除此之外,還有些針對特定影像的特徵建立索引。例如:顏色特徵。 -- 喔耶,洗板!(掩面) 感謝拉拉的課本 >__O 大家加油wwww~( ̄▽ ̄)~(_△_)~( ̄▽ ̄)~(_△_)~( ̄▽ ̄)~ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 120.127.47.86
einstein1217:厲害 06/10 09:59
※ 編輯: moonlights 來自: 120.127.47.86 (06/10 10:52)
bearNturtle:還 瞞 屌 的 06/10 10:36
-- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 120.127.47.86
Markseinn:這不推不行 06/10 11:35
WAYS22275: 不行不推 06/10 12:44
dada15427745:推推推 06/10 12:59
-- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 120.127.36.141
jerry771210:果然有1000元的價值 06/10 15:21
nash3629:版主幫我放道精華區 love u~~ 06/10 15:26
jerry771210:樓上吃大便誰叫你不休要去賺錢!! 06/10 15:31
kp595039:好強!! 06/10 23:54
mica0930:辛苦你了~幫你補一下 06/15 23:28
mica0930:網路內容探勘 第360頁 網頁依據用途分五類:入口網頁.訊息 06/15 23:30
mica0930:網頁.導引網頁.解釋性的網頁.資料輸入網頁 06/15 23:30
※ 編輯: moonlights 來自: 125.228.227.218 (06/17 07:18)