Re: [問題] 請問有關擷取資料的問題?

作者clara830 (...)

看板Python

標題Re: [問題] 請問有關擷取資料的問題?

時間Wed Jun 18 20:19:11 2008

不好意思再問一下中文解碼的問題因為我要處理的data是從某個文字檔(.txt)抓下來的而這個.txt檔裡面是包括許多中文字串的資料我在輸入以下程式的時候 #-*- coding:big5 -*- f=open('XXX.txt','rU').read() print f 這是沒有問題的其中的中文字串都可以完整show出來但是當我要對其中f(文字檔)做一些處理的時候(例如tokenize或是擷取資料出來) 就會出現unicode的問題想請問一下為什麼都只能在print的時候中文字串可以顯示但是寫其他程式碼處理的時候就不行呢@@ 請問有沒有什麼解決辦法呢謝謝!!! ※ 引述《gasolin (小g)》之銘言： : ※ 引述《clara830 (...)》之銘言： : : 不好意思再請教一個進階的問題.... : : 假設我現在有一個list是這樣: : : text = ['ABCD:from XXX X 12(V) XXX', 'EF:XXX XX', 'GH: from XXX XX 345(V) XX'] : : 比如說我現在想要讓程式判斷 : : : 如果裡面有包含'from'的話 : : 就把其中冒號前面的字串找出來以及找出其中(V)前面的字串 : : 以這個例子來說的話也就是希望擷取出 [(ABCD, 12), (GH, 345)] : : 好像有點複雜.....不知道這有辦法寫出來嗎? : : 現在好像還想不到怎麼解決 : 跟前面的回答基本一樣 : store = [] : text = [....] : for i in text: : if 'from' in i: : seg = i.split(':') : first_param = seg[0] : second_param = seg[1].split('(V)')[0] : store.append((first_param, second_param)) : print store -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.122.210.35 ※ 編輯: clara830 來自: 140.122.210.35 (06/18 22:23)

→ liangjr:不曉得你是如何做處理的 06/19 03:07

→ liangjr:yungyuc大的152篇有很多encoding的觀念可以參考 06/19 03:08

→ clara830:謝謝~~不過我現在那些字串都是在.TXT檔裡面 06/19 10:31

→ clara830:跟前面講的好像不太一樣..... 06/19 10:32

→ clara830:難道我要把.txt裡面的全部文字全部用複製貼上過去嗎? 06/19 10:34

→ clara830:想請問有沒有辦法直接對.TXT檔案做處理的.....@@ 06/19 10:35

推 wawawa:你文字檔是何種編碼？程式碼貼個片段出來看看吧 06/19 17:00

→ clara830:已想到解決方式感謝: ) 06/19 20:36