看板 Soft_Job 關於我們 聯絡資訊
中央研究院詞庫小組(CKIP) 中研院資訊所、語言所於民國75年合作成立 前天釋出可以商用的繁中大型語言模型(LLM) CKIP-Llama-2-7b 以商用開源模型 Llama-2-7b 以及 Atom-7b 為基礎 再補強繁體中文的處理能力 參數量達70億 模型可應用於各種領域 包括文案生成、文學創作、問答系統、客服系統、語言翻譯、文字編修、華語教學等 但實際測試後 https://i.imgur.com/phwhfcl.png
https://i.imgur.com/O1P6HpS.png
https://i.imgur.com/cMnCbI8.png
測試網頁:https://reurl.cc/q0rbqn 拿這種東西出來交作業 太扯了吧 根本就是簡體直接轉繁體而已! 中研院資訊所耶 拿這種軟體來騙 更新:被發現後 悄悄地撤下來了 https://i.imgur.com/sy7rLgt.png
-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.234.77.82 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1696815752.A.0A7.html
wsad50232: 拿抄來東西騙錢 連驗證都沒作 腐敗的可以 10/09 09:47
gino0717: 不要放出來demo就不會被發現了 10/09 09:59
imhaha: 水... 10/09 10:00
Tommnny: 唉 連中研院都這樣 10/09 10:04
justaID: 真假.... 這就像拿別人家的報告來修改交差,尿性不意外 10/09 10:08
justaID: ,最扯的是沒校稿,連報告名字都沒改 10/09 10:09
gino0717: https://i.imgur.com/h28uYVw.png 大方向上正確 10/09 10:11
doranako: 中研院正常發揮 10/09 10:13
airtsubasa: 笑死 10/09 10:14
aarzbrv: 「你是誰創造的?」:https://gyo.tc/1ZTIs 所得回答較長 10/09 10:30
truehero: 要這樣下 "我國是台灣 請介紹下台灣歷任總統" 10/09 10:32
truehero: ""我國是台灣 請介紹下我國歷任總統" 10/09 10:32
truehero: 中研院展示了技術, 但沒有台灣專屬資料集才是問題 10/09 10:33
truehero: 要改也很簡單 直接加個資料集重複 "我國是XXX"訓練就好 10/09 10:41
aarzbrv: 回truehero: https://gyo.tc/1ZTJA 10/09 10:43
truehero: 你可以把上面的句子改成中研院的資料再去訓練 10/09 10:44
truehero: 以技術人的角度會覺得這件事很愚蠢 我就搞得商用模型 10/09 10:45
truehero: 還得關心政治影響 10/09 10:45
truehero: 但他是中研院,可能就得想辦法去取得資源做這事 10/09 10:47
airtsubasa: 所以在國際上現況就是這樣吧 10/09 11:05
johnbill: 我之前搞模型的 繁體的資料集真的超少XD 10/09 11:18
johnbill: 要快 偷吃步的確是 簡轉繁 再餵進去 10/09 11:19
qqkerk: 可以去讀大魔術熊貓工程師的文章,有專門寫一篇這個議題 10/09 11:57
htang17: CKIP其實蠻用心的吧… 10/09 12:39
htang17: 以前做過NER,還發信請教過裡面的研究員 10/09 12:39
※ 編輯: gaymay5566 (36.234.77.82 臺灣), 10/09/2023 12:54:24
kissmickey: 我是不知道中研院是怎麼做的 10/09 12:59
kissmickey: 不過就以往接觸這類單位 一堆工程師很喜歡抄對岸的東 10/09 12:59
kissmickey: 西 10/09 12:59
kissmickey: 連註解也一起抄 真的懶真的扯爆 10/09 13:00
hobnob: 好可憐 10/09 13:24
michellehot: 只能說 LLM的資料集中國真的又多又好 台灣太晚跟上 10/09 13:26
michellehot: 我2019-2021公司還在測試GPT2的時候 中文資料都是中 10/09 13:26
michellehot: 國知乎、智庫等來的資料集 甚至還有清洗過 10/09 13:26
hsuchengmath: 這基本上是由對岸開發的LLM 再由繁體中文 fine tune 10/09 13:29
hsuchengmath: 下來的, 10/09 13:29
DrTech: 到底多少人有在訓練LLM ?繁體中文資料少根本是藉口。你沒 10/09 13:41
DrTech: 能力與資源訓練LLM 。只能用qlora fine-tune中國人的模型 10/09 13:41
DrTech: 才是真相吧。 10/09 13:41
DrTech: 語料根本不是問題,大廠都是拿全網訓練。中研院有沒有幾千 10/09 13:43
DrTech: 張A100? 沒有的話,訓練出來的模型,不是充滿簡體中國知 10/09 13:43
DrTech: 識,就是災難性遺忘到不能通用,二選一。 10/09 13:43
jay123peter: 傻眼... 10/09 14:07
drakd4d: 中研院這個真的盡力的,要是真的精通LLM英文又好怎麼會坐 10/09 14:12
drakd4d: 在中研院...早就在在美國了,除非中研院出得起一樣的錢 10/09 14:13
drakd4d: 這領域還願意待在中研院真的已經佛心了,資源差這麼多 10/09 14:14
drakd4d: OpenAI當初請多少非洲人人工清資料...除中研院有辦法這樣 10/09 14:15
drakd4d: 搞,不然這個問題最好有辦法靠幾個人就解決... 10/09 14:16
milk830122: 中國國營企業之前也號稱甚麼國產IDE結果是拿微軟的開 10/09 14:23
milk830122: 源套出來的 嘻嘻 10/09 14:23
luckyalbert: 你看看建仁不就知道了?一堆偷拐搶騙的沒料仔空有偷 10/09 14:39
luckyalbert: 來的學經歷及工作資歷薪職成天在那複製皇親國戚打壓 10/09 14:39
luckyalbert: 其他看不順眼的真才實料人們,真的一點也不意外,這 10/09 14:39
luckyalbert: 件事跟這個模型早在多年前就有人提過,只是身為被上 10/09 14:39
luckyalbert: 述人士各式政商台外商跨國企至中小企及研究學術單位 10/09 14:39
luckyalbert: 及機構各式上述曾提及過的那些在位者們惡搞成身無分 10/09 14:39
luckyalbert: 文的我及其他人,若在幾年前提這個,完全會被無視而 10/09 14:39
luckyalbert: 且還會跟現在一樣,有問題的那些上述各式偷拐搶騙還 10/09 14:39
luckyalbert: 延續孽種後代的髒東西,我已經講到爛掉,牠們在各式 10/09 14:39
luckyalbert: 社會地位上的小人得志惡人得利者還會要你(我)檢討 10/09 14:39
luckyalbert: ,是我有問題這種完全反了的造孽害人事,真的不知道 10/09 14:39
luckyalbert: 到底哪來的資格可以說這些話,噁爛到炸 10/09 14:39
luckyalbert: 一整個反了 10/09 14:40
luckyalbert: 拿預算寫報告隨便唬爛交代個成效感覺自己有在做事情 10/09 14:50
luckyalbert: ,鬼島各產業職司上位的有某一堆都是這副鳥樣,中研 10/09 14:50
luckyalbert: 院只是縮影,然後在其背後大力支持挖錢挖資源來提供 10/09 14:50
luckyalbert: 協助的本身也眼殘腦殘無法分辨這些人在搞什麼,有某 10/09 14:50
luckyalbert: 部分的老闆就是靠這樣在挖國家獨寡占及各式補助稅務 10/09 14:50
luckyalbert: 及全民資源賺更多放自己口袋,來創造事業跟財富還有 10/09 14:50
luckyalbert: 人脈及旗下跟班人馬再來讓自己某些人當皇帝,給低薪 10/09 14:50
luckyalbert: 職缺還要你我檢討自己為什麼不賣命為這些皇帝當奴乖 10/09 14:50
luckyalbert: 乖聽話付出時間與人生換錢給他們累積各式延續上述皇 10/09 14:50
luckyalbert: 帝後代來用,看多了你就知,以前大家是默默摸鼻子不 10/09 14:50
luckyalbert: 說話,但現在真的誇張到凹過頭了,明眼人看到都會火 10/09 14:50
luckyalbert: ,更不用提脾氣好的早就被這某些人惹火積冤多年,只 10/09 14:50
luckyalbert: 能期待你我要求自己不要變得跟這些人一樣就好,世風 10/09 14:50
luckyalbert: 日下劣幣驅逐良幣發展不是正向循環,鬼島這些年來環 10/09 14:50
luckyalbert: 境變成這樣還真的不意外 10/09 14:50
rabbitu04: 笑死哈哈哈 借轉Joke版 10/09 14:50
luckyalbert: 任何產業裡面團隊有不論再用心付出想改變這種環境及 10/09 14:53
luckyalbert: 各式產業人們發展往正面循環走下去的,看到這種狀況 10/09 14:53
luckyalbert: ,心灰意冷到最後被逼著跟群體一起擺爛,真的不用意 10/09 14:53
luckyalbert: 外 10/09 14:53
DrTech: 真的,中研院這種薪資與經費,願意待的人,都是充滿熱誠的 10/09 14:59
DrTech: 人了。薪資與資源根本趕不上社會的期待。而且我相信裡面的 10/09 14:59
DrTech: 人出去找工作,薪資與待遇,資源,成就,一定更好。 10/09 14:59
mangle: 哈哈哈啊 10/09 15:16
Csongs: 真的垃圾.. 10/09 15:54
nikolas: 敢把這種程度東西上架 有沒有一點點工程師的羞恥心啊 10/09 15:54
Csongs: 看了推文,還是幫中研院的基層推回來 10/09 15:57
hobnob: 運氣好又有能力的早就留美國了。回台灣的除了運氣不好沒 10/09 15:59
hobnob: 抽到籤之外,還背上百萬學貸,只能拿那一點點薪水,做研究 10/09 15:59
hobnob: 的熱忱都沒了,當web仔還比較有尊嚴 10/09 15:59
alan3100: 別說專業的 就一般政府裙帶企業也少碰 護城河很深 10/09 16:02
drakd4d: 結論就是做純軟或AI的塊逃啊,台灣根本沒那個環境... 10/09 16:11
luckyalbert: 護城河很深,在我原產業某些政商跨國企業及底下中小 10/09 16:11
luckyalbert: 企裙帶的他們眼中,認為我不聽話(要我這種人,聽這 10/09 16:11
luckyalbert: 些神經病群的,本來就是莫名其妙),各位有可能就會 10/09 16:11
luckyalbert: 像我一樣原有在各式社會角色職業對各產業皆有助益的 10/09 16:11
luckyalbert: 發展性,會被這些在位者小人們動各式手腳在裡頭,其 10/09 16:11
luckyalbert: 他人看到我,那些想為我及跟我一樣的人們出聲的也會 10/09 16:11
luckyalbert: 被整,希望各位不要碰到跟我一樣的經歷就好,他們目 10/09 16:11
luckyalbert: 前也沒有要改變認錯贖罪道歉悔過的意思, 依然自認沒 10/09 16:11
luckyalbert: 問題,可見生醫產業那背後水更深,如果各位科技業及 10/09 16:11
luckyalbert: 軟工要幫生醫產業的人們做事,我希望各位一定要看清 10/09 16:11
luckyalbert: 楚我原產業那些在位者們在做什麼,有些人當到老總含 10/09 16:11
luckyalbert: 底下帶出來的年輕總…等手段更是惡劣及誇張 10/09 16:11
drakd4d: 要穩賺就是半導體IC而已,但這也要看美國還讓我們做多久 10/09 16:12
luckyalbert: 我很多老國高中同學朋友們很多都是走電資軟工的,我 10/09 16:14
luckyalbert: 也跟他們說過我遇過的某些事情 10/09 16:14
acgotaku: 抄人家模型我是沒意見拉,中文語意模型本來就是對岸天下 10/09 16:15
luckyalbert: 若提及美國的話,我是認為照他們現在的經濟環境,會 10/09 16:17
luckyalbert: 先出手自保穩定程度佔比較大,其他國家發展後續他們 10/09 16:17
luckyalbert: 目前應該沒餘力去顧 10/09 16:17
acgotaku: 爛成這樣 連餵 prompt去篩選一下就不做 真的能滾去吃屎 10/09 16:17
fookafook: luckyalbert Salary板 永桶 https://0rz.tw/Hkk63 10/09 16:54
fookafook: luckyalbert medstudent板 永桶 https://0rz.tw/iDASV 10/09 16:54
fookafook: Gossiping板 水桶210天 https://0rz.tw/T5loZ 10/09 16:54
luckyalbert: 可憐,有不知道哪來的神經病開分身又在那瘋了,請直 10/09 18:20
luckyalbert: 接無視即可,我原產業及其他某些人躲在ID後面的護城 10/09 18:20
luckyalbert: 河還真深,請直接無視,我長期提及過的,以後不想再 10/09 18:20
luckyalbert: 提,換成是各位以後碰到跟我這些年來一樣的狀況時, 10/09 18:20
luckyalbert: 才會理解這些小人有多沒人的下限可言 10/09 18:20
wayne2002323: 大談 10/09 18:48
Dracarys: @truehero 台灣不是國,哪來的總統 10/09 19:39
viper9709: 中研院也搞這個... 10/09 20:46
andy0219: 廢到笑XDDD 10/09 21:06
milk830122: 黑單他就好跟他討論是浪費時間 10/09 21:33
popeye0303: 抱歉家裡失業6年精障 最近燥期到了 怎樣都壓不住 請 10/09 22:46
popeye0303: 大家多擔待 10/09 22:46
popeye0303: https://bit.ly/3Q5LUxO 10/09 22:46
kurtsgm: 其實看推文就知道某些人有病了吧.. 10/09 22:49
tswperfect: 對岸是沖繩嗎 10/09 23:15
kurtsgm: 美西吧(X) 10/09 23:42
Bujo: 說不定這個是外包做的,裡面的研究員都是草包 10/09 23:47
Lhmstu: 笑死www 10/10 01:19
TSMCfabXX: 把台積電輪班星人通通調去標記清理資料, 10/10 06:39
TSMCfabXX: 幾年之後國產LLM問世了, 請問能賣多少錢 10/10 06:39
yuinami: 太誇張 10/10 09:35
w28103566: 笑死 10/10 10:09
hobnob: 好可憐,有病的人快找人幫忙吧 10/10 13:07
mocca000: 體諒生病的人 然後頁面刪了但我記得CKIP一開始自己就有 10/10 16:56
mocca000: 說明有用到Atom-7b 就下架趕快拿掉就好了 加油 10/10 16:56
hippo130: 這告訴我們搞軟工也該有一點政治sense,因為這裡是台灣 10/10 21:13
mocca000: 哪個國家不用政治sense?中國嗎? 10/10 21:49
dalbuhr: 資工系學生:教授為什麼要禁止抄作業呢 10/11 11:27
newking761: 阿不然勒,要不要看經費多少啊 10/12 21:45
ooooo11111: 看來AI還不夠聰明,認知作戰失敗ㄌ 10/14 00:47
Merkle: 笑死 10/16 13:41
ert0700: 真的笑死……中研院盡力了,盡力的抄了嗎 10/17 06:38
ert0700: 現在是大學生抄作業還當自己寫的? 10/17 06:38
tacovirus: 研究助理都吃香蕉,還能這樣盡力了 10/20 10:15