作者clara830 (...)
看板Python
標題Re: [問題] 請問有關擷取資料的問題?
時間Wed Jun 18 20:19:11 2008
不好意思再問一下中文解碼的問題
因為我要處理的data是從某個文字檔(.txt)抓下來的
而這個.txt檔裡面是包括許多中文字串的資料
我在輸入以下程式的時候
#-*- coding:big5 -*-
f=open('XXX.txt','rU').read()
print f
這是沒有問題的 其中的中文字串都可以完整show出來
但是當我要對其中f(文字檔)做一些處理的時候(例如tokenize或是擷取資料出來)
就會出現unicode的問題
想請問一下為什麼都只能在print的時候中文字串可以顯示
但是寫其他程式碼處理的時候就不行呢@@
請問有沒有什麼解決辦法呢 謝謝!!!
※ 引述《gasolin (小g)》之銘言:
: ※ 引述《clara830 (...)》之銘言:
: : 不好意思再請教一個進階的問題....
: : 假設我現在有一個list是這樣:
: : text = ['ABCD:from XXX X 12(V) XXX', 'EF:XXX XX', 'GH: from XXX XX 345(V) XX']
: : 比如說我現在想要讓程式判斷 :
: : 如果裡面有包含'from'的話
: : 就把其中冒號前面的字串找出來 以及找出其中(V)前面的字串
: : 以這個例子來說的話 也就是希望擷取出 [(ABCD, 12), (GH, 345)]
: : 好像有點複雜.....不知道這有辦法寫出來嗎?
: : 現在好像還想不到怎麼解決
: 跟前面的回答基本一樣
: store = []
: text = [....]
: for i in text:
: if 'from' in i:
: seg = i.split(':')
: first_param = seg[0]
: second_param = seg[1].split('(V)')[0]
: store.append((first_param, second_param))
: print store
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.122.210.35
※ 編輯: clara830 來自: 140.122.210.35 (06/18 22:23)
→ liangjr:不曉得你是如何做處理的 06/19 03:07
→ liangjr:yungyuc大的152篇有很多encoding的觀念可以參考 06/19 03:08
→ clara830:謝謝~~不過我現在那些字串都是在.TXT檔裡面 06/19 10:31
→ clara830:跟前面講的好像不太一樣..... 06/19 10:32
→ clara830:難道我要把.txt裡面的全部文字全部用複製貼上過去嗎? 06/19 10:34
→ clara830:想請問有沒有辦法直接對.TXT檔案做處理的.....@@ 06/19 10:35
推 wawawa:你文字檔是何種編碼?程式碼貼個片段出來看看吧 06/19 17:00
→ clara830:已想到解決方式 感謝: ) 06/19 20:36