看板 Soft_Job 關於我們 聯絡資訊
最近把之前做的 pipowl(minimal SBERT)重構了一下 變成一個比較乾淨的幾何語義引擎,叫做 PipeOwl 老實說也不是什麼很大的模型 比較像是我自己在研究語義結構時拆出來的一層 --- 它在做什麼? 不是大型 Transformer, 也沒有接 decoding 端。 目前的形式是: 把模型壓成 .npy 向量場 然後用幾何方式做語義運算 核心公式: score = α·base + β·delta_scalar 整體是: 純 Python 不跑大型 Transformer 推理 可以嵌入 CLI / API / Chatbot / IME 本地語義比對速度接近輸入法候選 比較像是一個: embedding 運算層 + 語義場資料 --- 為什麼做這個? 其實只是想試試看: 語義模型一定要是黑箱 end-to-end 嗎? 如果把模型壓成向量場, 讓語義變成可以觀測、可以組合的結構, 會發生什麼事? 目前還在摸索中, 尤其是拿掉 sentence-transformers 之後, 訓練方式跟主流就完全不同了。 算是一個方向性的嘗試 --- 已知問題 / 還在實驗的地方 1.目前向量還沒做 norm1(正規化方式還在想要不要全場一致處理) 2.β·delta_scalar 這一層,可能改成降維後當作 loss 場會更合理,還沒完整實測 3.「語義」這類型的詞score有點高 可能觸發後要RAG名詞解釋 --- Hugging Face https://huggingface.co/WangKaiLin/PipeOwl 一些 benchmark 圖和筆記 https://hackmd.io/@galaxy4552/BkpUEnTwbl --- -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.73.51.159 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1771504516.A.EC4.html
DrTech: 早期在沒有Bert的時代,就有一堆類似工作。word2vec時代, 02/20 01:11
DrTech: 都有許多變形了。只在特定垂直領域,訓練短語級別,如果只 02/20 01:11
DrTech: 是計算量比較低,可以做語意計算,看不出有什麼特別新的東 02/20 01:11
DrTech: 西。 02/20 01:11
DrTech: 不使用 transformer或BERT,做短語embedding,其實早期大 02/20 01:16
DrTech: 家都玩得蠻多了。 02/20 01:16
DrTech: 看了一下,基底是用BGE 做詞彙embedding,將預先計算的結 02/20 01:59
DrTech: 果重複使用。就是用空間換時間啊。說不用S-Bert太牽強啦, 02/20 01:59
DrTech: 還不是有用。 02/20 01:59
DrTech: 最後benchmark只比時間,太取巧了吧,只比時間。你用儲存 02/20 02:04
DrTech: 空間換時間,當然時間上會硬贏阿。 02/20 02:04
galaxy4552: 確實我是從 S-BERT/BGE 的 embedding 出發做升級 02/20 05:15
galaxy4552: 我也還在思考怎麼驗證 因為這是時間導向設計的沒錯 02/20 05:19
USD5566: 唉 好不容易有人分享個實在點的專案 鐵o伯又在硬聊了有 02/20 11:13
USD5566: 夠尬 02/20 11:13