看板 java 關於我們 聯絡資訊
目前寫了隻程式 主要內容是擷取網頁原始碼並過濾網頁標籤 最後輸出成BIG5編碼的文字檔 目前碰到一個問題,擷取的網頁是UTF8的香港網頁 轉成BIG5後有些字會變成問號 例如 "恒"生 這些香港特有的繁體字 用UTF8跟BIG5_HKSCS編碼都不會有漏字的問題 但是偏偏一定要轉成BIG5輸出 Orz 不知板上的高手有沒有什麼建議 可以轉成BIG5後的內容不要漏字 先謝過各位了 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 58.114.194.163
kyoin:big5本來就會缺字了應該是無法改變的 還是轉成utf8比較好 10/22 22:06
joetsai:如果純BIG5文字檔應該就只能漏字,若是BIG5網頁要顯示 10/22 23:10
joetsai:UTF-8專有的字 是有解法的~ 10/22 23:12
wolf76er:請問該如何轉成big5的網頁 10/23 11:52
wolf76er:若轉存成BIG5編碼的網頁 我在從網頁轉存文字檔 可行嗎? 10/23 11:54
iFEELing:沒有 一轉成BIG5 轉不過去的字就毀了 沒得救 10/23 15:57
iFEELing:你可以看看BIG5字碼表 , big5字集只有那些字可以處理 10/23 15:59
iFEELing:要不漏字只能用混編的方式塞不同編碼的字進去... 10/23 16:01