看板 DataScience 關於我們 聯絡資訊
想請問有經驗的朋友。 我算是跨領域來做ML正在讀博,目前的課題是把ML應用在半導體製程。 不知道是不是跨領域,所以思想跟老闆不太一樣(我自己是製程跟物理背景,老闆是純CS ) 目前老闆希望我的研究主題是建立模型+資料統整所有半導體製程的知識。也就是未來有 新的製程技術,我們的模型對於新製程的參數能給予準確的預測(就不需要工程師去tune 參數)老闆的目標是讓模型學會製程的因果關係。 然後我們目前(我主要負責搜集data )的資料只有十幾個點,而且沒有搜集不同參數對 應的資料。我老闆想做unsupervised model(我自己是傾向supervised )。總之我怎麼 看都不覺得這麼少的資料點可以支持一個非常複雜的模型,其實連普通的NN我都懷疑能訓 練起來不會overfit 我的結論很簡單,要嘛我們做簡單一點的model,要嘛嚕起袖子努力去無塵室老資料(反 正做實驗的是我)。但我這樣說就被老闆說他做十年資料科學,我沒經驗誰說少數據做不 起來? 但具體問model怎麼搭建卻得不到明確的輪廓… 對於學物理出身的我,我對於model所謂明確的定義是指:你需要搜集什麼feature,然後 目標又是什麼?例如搜集薄膜厚度、半導體線寬、粗糙度…、而目標是電性(電阻、電容 …等) 而我的理解是,如果要model認知到一些物理特性,問進去的資料要包含各種想學習的參 數的變異。例如,如果要知道薄膜厚度帶來的影響,餵進去的資料需要有一定的薄膜厚度 變異。(這是我不解的點之一,我無法理解我老闆的cognitive model如何在不提供相對 應物理變異時,學習到對應知識,而在這項參數改變時做出預測?) 我的想法很簡單,除非給出某些人為設定的物理背景,如果資料都是在20度時搜集,模式 不可能知道實驗改在30度時做要如何反應。 這究竟是我的思想還停留在工程師的封閉思維,還是我老闆總在異想天開? 同樣的,我想具象化什麼知識要被學習,我老闆也說不出所以然…對於我,我覺得要有明 確的研究目標,但我老闆好像是且戰且走,然後覺得這些框架不可能也不應該知道(他常 常嗆我,如果你大概知道你要幹嘛,你現在博士就可以畢業了。我OS:我還是要把實驗資 料生出來,然後搭model啊) 我覺得要有模型框架我才能好好制定實驗計畫(不過他好像沒覺得我需要搜集很多資料XD ) 想請問有經驗的各位怎麼看?是因為我背景不一樣才覺得他說的目標跟方法不科學嗎?我 覺得他的理想很好,但需要更多具體怎麼做模型,還有怎麼搜集能讓模型理解的資料…) p.s.我們最近在向學校提交報告也被其他教授質疑,但其實我早就質疑這個計畫,卻一直 被當作不懂ML。(其他教授不是CS背景,我們是研究機構不是純學術) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 94.109.173.26 (比利時) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1715722831.A.020.html
chang1248w: 因果推論嘛,推pearl 的the book of why 05/15 13:54
chang1248w: 但是非監督的因果推論,這餅和地球一樣大啊 05/15 13:57
chang1248w: 另外據小道消息,第一線的工程師還是在靠肝 05/15 14:03
fragmentwing: 我的感想,你就是你老闆口中的認知模型 05/15 14:18
fragmentwing: 資料沒給齊但要把結果生出來 05/15 14:19
fragmentwing: 這俗稱叫「通靈」 05/15 14:19
fragmentwing: 查了下一樓講的 05/15 14:24
fragmentwing: 這東西應該還在純理論階段 很純的那種 05/15 14:26
fragmentwing: 拿出來跨領域 真的很純 05/15 14:32
fragmentwing: 用在半導體上第一原理都實際多了 05/15 14:33
chang1248w: 財經(他們那叫結構方程)和流行病學研究使用因果方法 05/15 14:38
chang1248w: 也有個二三十年 05/15 14:38
fragmentwing: 這東西要拿來應用不會碰上蝴蝶效應的問題嗎? 05/15 14:47
chang1248w: 什麼意思? 05/15 14:51
fragmentwing: 一開始沒考慮放入推論中的小變量導致推論結果歪掉或 05/15 15:01
fragmentwing: 不可預測 05/15 15:01
fragmentwing: *沒考慮或探測不到 05/15 15:03
fragmentwing: 到最後為了讓模型能得出正確預測 納入上千上萬個變 05/15 15:06
fragmentwing: 因然後仍然不知道還有沒有缺的 05/15 15:06
chang1248w: no loop + random sampling的假設可以處理掉九成,剩 05/15 15:08
chang1248w: 下一成當成誤差處理(x) 05/15 15:08
fragmentwing: 我想到一個東西……這是不是跟田口法有關? 05/15 15:09
chang1248w: 看起來是田口法的放大版 05/15 15:11
chang1248w: 我也不是做這塊的,偶爾翻兩頁書而已 05/15 15:12
julang: "老闆永遠是對的",祝你順利 05/15 15:27
truehero: 老闆:妳是半導體專家啊,妳的任務就是從少量資料抽取特 05/15 15:27
truehero: 徵啊 05/15 15:27
fragmentwing: 拉回來 05/15 15:29
fragmentwing: cognitive model 本身好像不是ML 05/15 15:29
fragmentwing: causal ML好像是python的一個package 提供的api大部 05/15 15:29
fragmentwing: 分都是傳統ML 05/15 15:29
fragmentwing: 然後有明確提到將 cognitive model 和deep learning 05/15 15:29
fragmentwing: 連結的研究都在2020後(有一篇提到NN的在2018) 05/15 15:29
fragmentwing: 非CS本科跳過來做這麼新的東西應該要配合有本科成員 05/15 15:29
fragmentwing: 的團隊吧 05/15 15:29
fragmentwing: 可能還要找個心理學的過來 05/15 15:29
fragmentwing: 而且 要的成品看起來已經接近AGI那邊了 05/15 15:30
chang1248w: 遠著哩 05/15 15:31
fragmentwing: 他要做的是整個半導體業界製程的通用模型 真的做出 05/15 15:35
fragmentwing: 來已經比gpt還近了吧 05/15 15:35
fragmentwing: 等等我想遠了 05/15 15:36
fragmentwing: 他至少不是要直接把新製程根據需求直接生一個出來 05/15 15:37
fragmentwing: 那確實還沒摸到agi那邊 05/15 15:37
fragmentwing: 我再把話題拉回來 05/15 15:43
fragmentwing: 之前上大廠來學校開的課 有一點記得很清楚 05/15 15:43
fragmentwing: 上課的工程師有提到機器學習只在成熟製程上有用(非 05/15 15:43
fragmentwing: 常有用) 05/15 15:43
fragmentwing: 有沒有一種可能是樓主的教授根本不是要做deep learn 05/15 15:43
fragmentwing: ing只是要做先進製程參數調控? 05/15 15:43
Bionut: 沒有,我們不是要做APC 05/16 00:58
Bionut: 謝謝各位,我大概知道自己該做什麼了XD 05/16 00:58
Bionut: 他是想做通用模型,他說要做的只是proof of concept 05/16 00:59
Bionut: 不過我現在應該想在公司找點其他能實現的東西 05/16 00:59
chang1248w: 我還是搞不明白他要做什麼 05/16 01:30
Bionut: 他想要搞一個通用模型可以理解製程的知識... 05/16 14:32
Bionut: 而不是只給出prediction的correlation.... 05/16 14:32
Bionut: 不過我困惑的是少少的變量跟資料到底要怎麼讓model理解 05/16 14:35
fragmentwing: 怎麼個通用法啊……這不還是成了LLM了嗎?還真的是 05/16 14:36
fragmentwing: 根據需求直接生製程啊! 05/16 14:36
Bionut: 人類想傳達的複雜問題 (加上老闆沒有其他CS PHD幫忙搭模型 05/16 14:36
Bionut: 所以...其實開始找其他人討論幹點別的...沒法做 05/16 14:37
fragmentwing: 沒有人搭(X)沒人搭得出來(O) 05/16 14:44
fragmentwing: 這就算是open ai的大神來也束手無策 巧婦難為無米之 05/16 14:45
fragmentwing: 炊 資料量一丁點這種東西怎麼玩得起來? 05/16 14:45
fragmentwing: 一般來說這種離譜的要求是非CS開給CS 你老闆專業的 05/16 14:45
fragmentwing: 怎麼會這樣亂開? 05/16 14:45
chang1248w: 阿他老闆就不是要做DL咩 05/17 21:00
BoruK: Causal inference 的 assumption 很強,continuous treatme 07/19 22:00
BoruK: nt 甚至更強,沒有那麼好做。甚至資料量那麼少,associatio 07/19 22:00
BoruK: n 都找不到了,causation 就更不可能 07/19 22:00