作者paranoia5201 (社會黑暗、行路難)
看板R_Language
標題[問題] 用多筆資料拼湊出完整資料表
時間Fri Apr 26 18:04:10 2019
我的資料長相如下:
> head(list18c)
# A tibble: 6 x 8
姓名 單位 職稱 地址 電話 傳真號碼 手機 email
<chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
1 廖AA 中正大學 教授 621嘉義縣 <NA> <NA> 0918-333~ <NA>
2 田BB <NA> <NA> 100台北市 <NA> <NA> 0911-246~ <NA>
3 陳CC <NA> <NA> 407台中市 <NA> <NA> 0988-111~ <NA>
4 黃DD <NA> <NA> <NA> <NA> <NA> <NA> <NA>
5 陳EE 台灣大學 教授 <NA> <NA> <NA> <NA> <NA>
6 唐FF <NA> <NA> 242新北市 <NA> <NA> 0928-555~ <NA>
【目的】:拼湊出一個完整的資料表。
【說明】:
一、我有好幾份資料,有相同的欄位,但是各自不齊全,唯一可比對的根據是「姓名」。
例如「田BB」在A資料表中有地址及手機,在B資料表中有單位和職稱,
C資料表有email,D資料表有電話及傳真號碼。
可以如何下指令,讓R可以自動拼湊出完整的表?
(簡單的想法,是請R將不是NA的資料列給我,我再case by case於新表格上湊滿)
(但是又有另一個問題,若有兩個以上的資料表同時都有寫同一欄位卻不相同?)
二、若是有欄位誤填(「單位」寫教授、「職稱」寫「XX公司」),除了copy & paste,
有什麼較聰明的方法?
三、有關地址前面的郵遞區號,若想要獨立分割成新的欄位,但是有些是3碼有些是5碼,
有什麼方式可以指示「請從第一個數字切割到第一個中文字之前」?
以上,感謝解答~
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.194.164.43
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1556273052.A.E25.html
推 locka: 問題3 用 regular expression 04/26 20:29
→ andrew43: 通常可以從merge開始試 04/27 00:49
→ andrew43: 問題1 04/27 00:50
→ andrew43: 問題2,單位和職稱會有一些特徵 04/27 00:51
→ paranoia5201: 感謝指導,我來試試看。 04/27 11:26
推 TOOYA: 問題3,如果只有3碼跟5碼的話,就做第5位的判斷就好了,第5 04/30 15:05
→ TOOYA: 位如果是0~9則取5位,否則取3位 04/30 15:05