看板 Patent 關於我們 聯絡資訊
推 MrCAKE: 如果是這樣,關鍵字拓展之後還是卡關,就要想其他招了 06/26 08:35 推 MrCAKE: 以後AI檢索更強的話應該能幫忙(吧) 06/26 08:41 推 patentable: 以目前機器學習的AI架構,還沒辦法做到瞭解文義 06/26 09:49 → patentable: 對於檢索的幫助其實非常有限,主要用在統計用字頻率 06/26 09:50 https://hant-kb.kutu66.com/others/post_13649887 目前的AI可以做到「句子相似度」的計算,如上連結。 'this is a sentence'及'this is also sentence'的計算結果,高達0.915479828613的 近似度。 因此,如果要用機器幫忙找前案的話,可以先寫下要找的句子(或詞袋),然後用「句 子相似度」的演算法,來找出近似的專利。word2vec是由google提出來,google專利資料 庫的近似專利,應該也是用這個演算法計算出來的。 考慮到專利用語的多變化,(以下是我亂想的,沒有理論基礎)想要提高演算的精確度時 ,選擇詞袋中的詞就很重要,可以考慮先對句子中的詞進行處理。舉例,可以考慮先把 下位詞更換成上位詞,或者把所有的近似詞換成相同的詞等,但這個需要自己整理詞庫。 因此,個人認為用機器幫忙找專利,是有機會的,但需要為不同的領域準備好自己的 詞庫。要用一般的詞庫應該很難達到實用的效果。 下面有整理出幾個句子相似度的演算法。 https://reurl.cc/WdQkVx -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.32.228.170 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Patent/M.1593275214.A.74C.html ※ 編輯: ides13 (114.32.228.170 臺灣), 06/28/2020 01:04:15
patentable: 最大的問題確實是詞庫,還有上下位用語的關係 06/29 06:52
VanDeLord: DL角度來看,原始資料清洗剩下的資料量和演算模型難搞 06/29 09:58
VanDeLord: 之前想開發DL模型演算法,不過這一塊太吃AI科學家能力, 06/29 09:59
VanDeLord: 弄個五人團隊加上硬體一年硬生生要掉我1200萬台票,市場 06/29 10:00
VanDeLord: 規模有限,暫時放棄先看後面AI硬體有沒有辦法降價XD 06/29 10:01
VanDeLord: 演算法的部分等 AutoML的發展,看起來有機會 06/29 10:05
VanDeLord: AutoML的好處是,將足夠清洗好後的資料餵進去,會自己找 06/29 10:07
VanDeLord: 最適合的演算模型, 而不是靠人設計模型,對於沒有頂尖AI 06/29 10:08
VanDeLord: 科學家的企業來說,這一塊商機感覺很大 06/29 10:08
ides13: 曾經想過這上面的的想法創業,但覺得應該不可能,只留在想 06/29 11:33
ides13: 想的階段,對於敢付出實際的人,都感到佩服。 06/29 11:34
ides13: V大你真有勇氣。 06/29 11:34
ides13: https://reurl.cc/WdQOvD 06/29 13:09
ides13: https://reurl.cc/8GM9j7 06/29 13:10
ides13: 上面有代碼,提供給有興趣玩的網友參考。 06/29 13:10
ides13: 只要更換sentance1及2的文字,就能算出相似度。 06/29 13:14
ides13: https://reurl.cc/xZM3NZ 06/29 13:16
ides13: 「GoogleNews」詞向量的下載地址,如上。 06/29 13:18
VanDeLord: https://arxiv.org/pdf/1905.07870.pdf 06/29 13:52
VanDeLord: 當初還找了金庸古龍小說訓練出來的演算模型,跑一個月以 06/29 13:53
VanDeLord: 終於一個claim裡面有一小段話看起來比較像樣 06/29 13:53
VanDeLord: google : AI論文機器人 06/29 13:58
VanDeLord: 不過我也發現有些美國網站開始有推銷AI寫專利這一塊 06/29 13:58
VanDeLord: 發明人只要輸入發明內容,就會生成專利說明書給你..orz 06/29 13:59
VanDeLord: 不過我看內容還是需要人工校閱就是了 06/29 13:59
VanDeLord: 在語意模型裡面, 英文比中文簡單太多了...嘆 06/29 14:00
ides13: https://reurl.cc/j7Z0zp 06/30 15:03
ides13: AI HUB,有在進行類似的專案。 06/30 15:07
ealvis: 其實你用svm類似的方向去想ai分析專利,會落入pre-train 07/13 04:30
ealvis: 那些拘束。但其實用cluster的方式去想專利相似應該會比較 07/13 04:30
ealvis: 適合。以醫療分析也是這樣,其實你不用管原本的分析標的在 07/13 04:30
ealvis: 你的眼光是什麼特性,因為分析後的ai會告訴你為什麼他要這 07/13 04:30
ealvis: 樣分析。但真正的問題是拿ai來弄專利太浪費錢,拿這些錢 07/13 04:30
ealvis: 來弄人命才比較好賺錢 07/13 04:30
ides13: 謝謝提供進一步資料,原來還有cluster的方式。 07/14 13:37
ides13: https://reurl.cc/KkaYxg 07/14 13:38
ides13: 目前是想找一種能夠幫助檢索的方式,但理論基礎太弱了。 07/14 13:40
VanDeLord: cluster是傳統語意分析方式 08/01 14:30
VanDeLord: cluster分析是有其優點 08/01 14:31