[新聞] 全球首款「繁體中文」AI 大型語言模型

作者forb9823018 (風過無痕)

看板Stock

標題[新聞] 全球首款「繁體中文」AI 大型語言模型

時間Wed May 3 12:46:09 2023

-------------------------------發文提醒---------------------------------- 1.發文前請先詳閱[新聞]分類發文規範，未依規範發文將受處份。 2.連結過長請善用 https://bit.ly/ 等縮網址服務，連結不能點擊者板規1-2-2處份。 3.心得/評論請盡量充實，心得過短或濫竽充數將以板規 1-2-3、4-4 水桶處份。 4.發文請依照格式文章標明段落，不符合格式者依4-1刪文處分。 ------------------------ 按ctrl+y 可刪除以上內容。 ---------------------- 原文標題： ※請勿刪減原文標題全球首款「繁體中文」AI 大型語言模型登場！聯發科攜手中研院打造原文連結： ※網址超過一行過長請用縮網址工具 https://3c.ltn.com.tw/news/53050 發布時間： 2023/04/30 18:52 ※請以原文網頁/報紙之發布時間為準記者署名：劉惠琴 ※原文無記載者得留空原文內容：美國新創科技公司 OpenAI 以基於 AI 生成式打造的強大語言模型 GPT-4，透過大量的語言材料與資料訓練等技術，讓會說人話的「對話式」AI聊天機器人ChatGPT，從去年底開始火速於全球掀起風靡熱潮後，不但可輸入文字進行問答，現在還能給出圖片讓AI去解讀，甚至還能要求AI生成所需要的圖片範例。與此同時，各大科技巨頭廠商，也爭相投入這波創新AI 技術競賽的浪潮。不讓 GPT-4 專美於前，身為IC設計龍頭的聯發科於官網宣布，旗下來自前瞻技術研究單位的「MediaTek Research」聯發創新基地，近幾年來以致力深耕人工智慧技術領域為主要核心，日前已成功開發出全球首款以繁體中文打造、具備增強AI生成訓練的大型語言模型「BL OOM-zh」，並公開釋出該原始碼的測試模型提供外界下載，除能直接輸入繁體中文進行問答或生成文案之外，同時兼具支援英文等多語言能力。由於現有多數開放原始碼所釋出的大型語言訓練模型，主流普遍大都傾向以英文作為首要語言與主要優化版本，相較下，以繁體中文所打造的預生成式AI語言訓練模型，則是較為少見，且資料量也相對不足。有鑑於此，聯發創新基地於去年五月就已攜手與中研院、國家研究院展開合作計畫，透過三方共同組成的AI研究團隊，以打造出全球首款使用繁體中文作為主要對象的大型語言模型「 BLOOM-zh」為主要訴求，欲藉此讓與繁體中文相關的AI人工智慧技術、研究與應用，能更進一步地加速普及化。聯發科表示，聯發創新基地的AI研究團隊，於今年成功開發的首個繁體中文「BLOOM-zh」大型語言模型，主要運用兩大關鍵技術，其一，就是使用能理解包括中文、英文、法文與越南文在內、共計46種語言的「BLOOM」大型語言模型，以「BLOOM」既有具備的繁體中文模型與英文模型作為開發基準。其二，則是另外擴展涵蓋新聞、書籍、教育、百科全書與口語化等多個領域文章，包含中文與英文共計74億個參數值，作為預訓練模型。同時，並使用來自國家教育研究院提供的大量高品質繁體中文作為主要訓練材料，加上聯發科制訂以符合國際標準繁體中文評量指標的硬體性能訓練環境，與收集近期較新語言材料，以訓練模型能具備有更易於讀懂使用者輸入指令的高效率執行能力。還有，來自中研院針對該語言模型生成的文字，進行自動偵測與評估修正，避免生成的文字內容具有特定偏見或敵意等不適內容。 BLOOM-zh 繁體中文大型語言模型釋出開源，點下列網址可前往試用、下載 https://huggingface.co/ckip-joint 另，補充說明的是，上述內文提到的「BLOOM」模型，是由總部位於紐約的AI新創公司 Hugg ing Face，集結全球60個國家、逾一千多位研究人員、於去年2022年推出「BigScience」開源專案項目的成果，「BLOOM」大型語言模型，具備高達1,760億個參數值，並擁有理解46種語言與13種程式語言的能力。心得/評論： ※必需填寫滿30字，無意義者板規處分原來聯發科也有AI團隊，一直以為只有做硬體，少數軟體部份也是EDA之類的輔助軟體，沒想到已經有在做中文AI了。繁中版且不是中國那種擋住一堆敏感詞版本，最近應該很多人會試用 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.137.163.49 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1683089173.A.6E7.html

推 pponywong : 國外一開源國內就自研 05/03 12:46

→ pponywong : 該不會model有參考GPT-2.0 open source 吧 05/03 12:47

推 abccbaandy : 不都這樣？對岸早就一堆"自研"了XD 05/03 12:51

噓 leo921080931: 超廢 05/03 12:51

推 ethan0419 : 自研cc 05/03 12:52

推 as80110680 : 不能畫色圖的AI我可是不要的 05/03 12:53

推 kmark1120 : 如果是gpt-2開源碼做出來的對岸一堆了人家不公開 05/03 12:53

→ kmark1120 : 的已經做到4代了不知道能力差ㄅ別多少 05/03 12:53

→ faelone : 發哥之前還成立元宇宙辦公室呢，真的蠻愛顧股價的 05/03 12:54

推 Archier : 瑟瑟 05/03 12:55

推 capssan : 這沒辦法畫圖吧，我看連生成色色文都不行 05/03 12:57

推 NEX4036 : 明天漲停不要不信。 05/03 12:57

→ capssan : 而且學習的內容居然還包含新聞？..真期待會教出啥 05/03 12:58

→ capssan : 玩意兒 05/03 12:58

噓 stationary : 發哥也懂AI?那就只能噴了 05/03 12:58

推 BaGaJohn5566: 要重返農藥了嗎 05/03 13:04

→ is1128 : 去玩玩demo吧，我只能說廢到笑 05/03 13:07

推 FlynnZhang : \發哥/\發哥/ 05/03 13:10

→ lpmybig : 發糕重返農藥上看一千 05/03 13:13

噓 qwas65166516: 一樓不懂裝懂內文就說是BLOOM基底了別只會酸 05/03 13:15

→ uv5566 : 沾邊就想炒下一個元元宙 05/03 13:16

→ qwas65166516: 國內有大廠願意投資就值得鼓勵了 05/03 13:16

推 cage820518 : 發哥本業沒未來了是嗎？搞這個東東 05/03 13:18

推 GooglePixel : 配合政府發展計劃領個打工費而已 05/03 13:19

噓 qwe78971 : 還以為是自研結果是拷貝別人的拿來改== 這樣我單 05/03 13:19

→ qwe78971 : 人就可以做了發哥有沒有考慮高薪聘請 05/03 13:19

→ sdhpipt : 之後會講一堆廣東話吧 05/03 13:20

推 KadourZiani : 華語首家線上____上線囉 05/03 13:20

推 Albert0912 : AI炒起來 05/03 13:21

→ littenVenus : AI發糕 AI肉鬆好ㄘ嗎 05/03 13:23

噓 dergnj : 不過做繁體字沒前途就是了 05/03 13:25

→ alex780312 : 大語言模型搞到剩繁中... 05/03 13:27

推 may0723 : 台灣首家線上AI上線啦！ 05/03 13:29

→ l024bytes : 等等這不是it 就有在教學 05/03 13:32

→ starport : 粉紅：乳為什麼不是簡體 05/03 13:33

推 weiyuhsi : 阿難的就是預訓練模型，從Bert開始，語言一直都不 05/03 13:34

→ weiyuhsi : 是太大的障礙，對模型來說啥語言都差不多，好的預 05/03 13:34

→ weiyuhsi : 訓練模型隨便tuning一下就可以在其他語言上有很好 05/03 13:34

→ weiyuhsi : 的表現。 05/03 13:34

→ weiyuhsi : 不過有大方的說自己套什麼預訓練模型，誠實給讚 05/03 13:34

推 intointo : 訓練資料來自？ 05/03 13:36

推 derekhsu : 這個用開源模型做出來的懶叫比雞腿喔 05/03 13:43

推 observer0117: chatgpt用reddit訓練，bloom-zh該不會用ptt... 05/03 13:47

→ observer0117: hugging face，會想到face hugger 05/03 13:48

→ janhon : 2000億大概到GPT 3.0規格吧 05/03 13:50

→ laechan : 跑出答案的速度超慢 05/03 13:50

噓 Murasaki0110: 笑死直接git clone算什麼研發 05/03 13:51

→ laechan : 真的懶趴比雞腿 https://i.imgur.com/z9kyC9M.jpg 05/03 13:52

→ JOKIC : 肥宅福音 05/03 13:58

推 rrroooqqq : 有ai就是噴了，管他內容是什麼！重返千金股 05/03 14:11

推 strlen : 你各位是多嚴格？能跑出結果來就該放鞭炮了 05/03 14:15

→ piece1 : 試了一下....爛到不知道該說啥了! 05/03 14:15

噓 ggininin5566: 太神啦 05/03 14:24

→ onit : 傻傻的豬在風口都會飛發哥本益比這麼低就差題材 05/03 14:44

噓 qwe78971 : 試用了一下爛到笑，工程師是不是if(最高建築)cout 05/03 15:01

→ qwe78971 : <<101<<Endl;這樣那找我去做就可以了 05/03 15:01

噓 shirleyEchi : http://i.imgur.com/HhBai7a.jpg 理解能力真差 05/03 15:04

推 lizardc1 : 發哥上看兩千一切預告在前 05/03 15:13

推 tr920 : 用開源軟體刻出來，大概大學專題程度 05/03 15:19

噓 NCCUexpert : 參數量差太多，你在幼稚園學習別人讀高中了 05/03 15:40

噓 lise1017 : 基本上台灣搞的起來的東西都是老蔣那一幫留美回來 05/03 15:43

→ lise1017 : 的中國人搞的土生土長的台灣人搞出來的東西就是些 05/03 15:43

→ lise1017 : 小鼻子小眼睛 05/03 15:43

→ lise1017 : 成不了氣候這麼說也不是台灣沒人材而是台灣的人 05/03 15:44

→ lise1017 : 材都不會傻呆在台灣早就出走了 05/03 15:44

推 ac3333 : 看到工研院心就涼一半了… 05/03 16:41

推 OnePiecePR : 30億參數、130億 tokens 應該還沒湧現現象，如果跟 05/03 16:49

→ OnePiecePR : 前幾代能力差不多就糗大了。再觀察～ 05/03 16:49

→ shinyi444 : 爽啦打爆殘體文 05/03 16:54

→ DrTech : 真的是git clone等級而已。拿別人的模型，Bloomz上f 05/03 16:55

→ DrTech : ine-tune而已。而且有7.7%的資料是從簡體中文直接翻 05/03 16:55

→ DrTech : 成繁體中文。 05/03 16:55

→ DrTech : 模型參數只有1B-3B，10億-30億，真的是GPT-2規模而 05/03 17:17

→ DrTech : 已。 05/03 17:17

推 thaleschou : 馬上被串去交友軟體 05/03 17:57

推 kalapon : 用之乎者來交談很利害嗎 05/03 18:00

噓 reemir : git clone: 05/03 18:57

推 OnePiecePR : 坦白說 transformer 我也能刻，不知道能不能上新聞 05/03 19:01

→ OnePiecePR : 。坦白說，我也用 prompt 讓 ChatGPT 產出 transfo 05/03 19:01

→ OnePiecePR : rmer encoder(by torch) 同時也驗證正確能執行，不 05/03 19:01

→ OnePiecePR : 知道能不能上新聞。我不叫發科、我也不姓聯。 05/03 19:01

推 webster1112 : 用來發費雯超讚 ! 05/03 20:24

→ jarr : 這東西跟拿來當基底的語言模型差在哪？有沒有什麼d 05/04 13:47

→ jarr : emo之類的可以展示出差別？ 05/04 13:47