精華區beta Gossiping 關於我們 聯絡資訊
正式消息請看: http://goo.gl/Pd9A5Y 這裡只列出一些數據 ;) # 24 小時內將 2637 頁文件共 309666 格資料完成辨識 # 表單被送出 637160 次,來自 8352 個不同 IP # 前三名次數 - 1. 30250 111.255.xx.xx - 2. 5664 125.230.xx.xx - 3. 3800 36.227.xx.xx 部份完成的結果可以透過下面網址預覽: http://kiang.github.io/tw-campaign-finance/demo_text.html 有興趣下載完整資料的可以參考: https://github.com/ronnywang/sandbox/tree/master/20140420 上面這只是七個人的資料,想要知道完整列表可以參考: http://goo.gl/hdIrDd 看起來有 6227 筆,所以這次的成果其實是 7 / 6227 想要幫忙繼續把這些資料挖出來的朋友可以參考這個 SOP http://bit.ly/PoliticalContribution -- kiang -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 203.69.90.100 ※ 文章網址: http://www.ptt.cc/bbs/Gossiping/M.1398007914.A.A9F.html
CharleneTsai:COOL 04/20 23:32
sanguinesand:推 04/20 23:32
mc12355:照到朝陽會照死多少國家的吸血蟲呢? 04/20 23:32
karlrecon:推 04/20 23:33
mc12355:這道 04/20 23:33
ikki:超過三萬筆的是怎麼回事啊 XD 04/20 23:33
karlrecon:用鍵盤救國家 04/20 23:33
antx:推 04/20 23:33
wahaha99:....那個三萬筆怎辦到的 這不是人工ocr嗎 04/20 23:33
dryweed:太強大了 04/20 23:34
james732:第一名是怎麼做到的啊...... 04/20 23:34
litcurler:第一名其實是程式? 04/20 23:35
管理員有追了一下,好像是真的神人
spector66:鍵盤救國推!! 04/20 23:35
space20021:鍵盤救國 04/20 23:36
tetsu2008:32767 04/20 23:37
invander:喔喔,要好好保存,小心選舉前後忽然癱瘓,KMT奧步! 04/20 23:37
JFNfrog:媽的台灣人怎麼這麼有競爭力 04/20 23:37
kipi91718: 04/20 23:37
yaujack:請問這是甚麼? 04/20 23:38
請參考 http://goo.gl/29niNs
ian90911: 04/20 23:38
※ 編輯: olctw (203.69.90.100), 04/20/2014 23:39:57
SDNS:推 04/20 23:38
jaguars33:加油啊 鍵盤救國的最高境界 04/20 23:38
zephyrmartin:我不相信第一名是真人 快分享程式給大家跑吧 04/20 23:38
huangsw:好慢.... 04/20 23:38
darren8221:錯誤不少耶 XDD 需要訂正的部份蠻多的 04/20 23:38
cs91358:鍵盤救國太爽了!! 04/20 23:39
colyward:就類似RECAP那種概念 集眾人之力辨識紙本文件轉換成電子 04/20 23:39
abian:哇 那就以前的clickclickclick.com點點大賽一樣,有人寫程式 04/20 23:39
plutonian:WOW!! 04/20 23:39
Bookdaily:QQ鍵盤救國 04/20 23:39
cicici:XD 04/20 23:40
colyward:看來網站流量瞬間炸了 .......圖片載入好慢 04/20 23:40
tailor:詳細資料網址:http://0rz.tw/9KXSz 04/20 23:40
abian:把圖形化的東西,切成許多小區塊,由鄉民來人眼辨識輸入送出 04/20 23:40
fishsoul:現在又有新資料要輸入了? 04/20 23:40
tailor:大家可以查關鍵字"旅館"。 04/20 23:40
tracetw:對不起我錯惹QQ 04/20 23:41
qaz545rain:超屌 04/20 23:41
coke750101:幫忙辨識中~~~ 04/20 23:41
abian:http://campaign-finance.g0v.ctiml.tw/ 按 +1 開始人工辨識 04/20 23:41
jealic:太酷了 04/20 23:41
wlvfgqaz:推 04/20 23:42
MingHangDu:載入很慢+1 04/20 23:42
weshu:推 04/20 23:42
momoisacow:常常打韓劇字幕吧 XD 04/20 23:43
a6268538:早上很快,可能現在人多,主辦單位要考慮提高頻寬了 04/20 23:43
misadventure:推 04/20 23:43
windangellin:\推神人/ 04/20 23:44
jeanniewoo:酷歐!!這真的比政府有效率多了 04/20 23:45
murasei:好lag喔 04/20 23:45
Bookdaily:這不需反覆驗證嗎?xxx筆,只靠xxx筆輸入,夠嗎? 04/20 23:45
我寫的是 637160 次輸入,但這是幾個鐘頭前的數字,在新聞發出後好像主機快被打掛了
tzq:QQ 我只有兩位數 04/20 23:45
jaeomes:推 04/20 23:46
abian:有驗證吧,有人寫的會出現這答案已經有人寫了,是____ 04/20 23:46
※ 編輯: olctw (203.69.90.100), 04/20/2014 23:47:48
abian:人眼對一下,對的話就按下「這答案沒錯」 04/20 23:47
Bookdaily:抱歉看錯,是60幾萬筆驗證 04/20 23:47
ken60816:推神人 04/20 23:47
rasiel0919:推 04/20 23:47
abian:現在好lag.. 04/20 23:47
Rayio:鍵盤救國阿 乾脆監察院廢了把費用拿來支持這個活動 04/20 23:47
QQdragon:推~ 04/20 23:48
mpppppp: 04/20 23:48
wangm4a1:推 希望有人能幫忙再印資料出來 04/20 23:48
lodestar:推 04/20 23:49
annie464646:推 04/20 23:49
sharkbaby:大推 04/20 23:50
p200404:怎麼都一堆空白阿 04/20 23:50
rabbitrobert: 04/20 23:50
wlvfgqaz:一直出現空白是正常的嗎? 04/20 23:50
invander:這個能申請智財嗎?做出來防拷貝,之後賣回給政府? 04/20 23:51
sssun:工人智慧加油! 04/20 23:51
joyc06u6:太酷了XDDDD 04/20 23:51
invander:或者以NGO形式存在也行 04/20 23:51
EricXD: 04/20 23:51
karlrecon:空白正常,有些欄位的確是不需要填的 04/20 23:52
s860134:真的是工人智慧! 04/20 23:52
dhs32:看來好像塞爆了?圖片一直是空白的 04/20 23:52
nk7260ynpa:讀取好曼壓 04/20 23:52
shmily0303:推 04/20 23:52
s860134:目前看起來是正常優 04/20 23:53
Bookdaily:原po可以幫我把推文的數字去除嗎?怕大家看到錯誤的數字 04/20 23:53
done
jimmily:有點LAG,鍵盤救國 04/20 23:53
david213:推 04/20 23:53
※ 編輯: olctw (203.69.90.100), 04/20/2014 23:54:03
unreal29:太猛了!!!!! 04/20 23:53
s860134:大部分空白都會有邊框 純白倒是沒遇到 04/20 23:53
dhs32:同樓上 04/20 23:54
yinling0105:推 04/20 23:55
jimmily:大家加油XD,一邊看電影一邊打資料中 04/20 23:56
tracetw:校正用原稿跟整合的資料對比會比較快 現在這樣校正根本 04/20 23:57
tracetw:浪費時間 04/20 23:57
歡迎跳坑, g0v 可能沒有這麼多人力?
soren55200:連續出了10多個白的 04/20 23:57
Bookdaily:謝謝原po 04/20 23:58
fanlander:Cool 04/21 00:00
※ 編輯: olctw (203.69.90.100), 04/21/2014 00:02:05
buddar: 04/21 00:02
minaminojill:很棒 04/21 00:02
romusutoru:推!照妖鏡!! 04/21 00:02
joe2233:推 04/21 00:02
orioh:跪了.. 04/21 00:03
sadmonkey:推 04/21 00:03
nojoe:鍵盤救國!! 04/21 00:03
buddar:good job 04/21 00:04
j0928875963:推 04/21 00:04
repression:!!!太強 04/21 00:06
white07:超級強 04/21 00:06
mdffc:推推 04/21 00:08
Lamuneforty:大推 04/21 00:08
doun:鍵盤救國推! 04/21 00:09
iGao:……到底是那些混帳說台灣沒人才沒競爭力的? 04/21 00:10
lu4unique: 04/21 00:10
lolikung:click^3 的打字兵出動了 04/21 00:10
dtdon1699:推 強 04/21 00:11
playerscott:推!!! 04/21 00:11
abian:可辨識的浮水印大字,要打浮水印的字還是選這是空白? 04/21 00:12
空白
lu4unique: 04/21 00:13
Trulli:推 04/21 00:13
nht:浮水印不用打, 是空白 04/21 00:13
abian:了改! 04/21 00:13
danieo:有點LAG 04/21 00:13
tracetw:不是啊 你要大家協同輸入資料可以 校正一輪後就該輸出成 04/21 00:13
tracetw:原稿來校正 現在的情況是大家還在load幾萬張校正一輪圖片 04/21 00:14
其實程式都還在調整中,歡迎跳坑 https://github.com/ctiml/campaign-finance.g0v.ctiml.tw
sshwann:強 04/21 00:15
s860134:收集的資料之後還可以用機器學習做處理 只要校對就好 04/21 00:15
ihatesmith:推!!! 04/21 00:15
fish076:推! 04/21 00:16
kissbin:推~ 04/21 00:16
flydogbus:好多空白= =" 04/21 00:16
yjlee0829:推 04/21 00:17
a258558:讚啦!太神了 04/21 00:17
acont:推!!! 04/21 00:17
kevfire:推 04/21 00:18
abian:喔喔 t大是指人工辨識一輪後,先不管正確率,輸出每頁全文, 04/21 00:19
yubisaki:推 大家超有競爭力的QQ 04/21 00:19
abian:一個人一次校對一整頁比較快? @@ 04/21 00:19
baronterry: 04/21 00:19
noneed2argue:好好玩XD 04/21 00:19
shien807548:整頁校正過的會拿掉吧?不然怎麼每次看都只有1-2人回答 04/21 00:20
有設定出現機率,盡量讓校正的頻率平均
s860134:可能是threshold設在3吧 04/21 00:22
ronlai:當年click^3搞他動認證都沒那麼勤勞過..orz 04/21 00:22
s860134:人工辨識率基本上都是非常準的 3次幾乎不太可能錯 04/21 00:22
Alcor:空白還不少欸... 04/21 00:25
rotusea:這是....什麼@@ 04/21 00:26
cogito:可不可以弄個排行榜之類的 可以增加大夥的動力 04/21 00:26
已經很多類似建議: https://github.com/ctiml/campaign-finance.g0v.ctiml.tw/issues/15
cogito:剛發現有人來亂 明明空白的地方 輸入一堆數字 04/21 00:29
danieo:連按幾十次空白了... 有沒有辦法軟體先挑掉.. 04/21 00:29
s860134:我猜是可以先挑調 但是一開始根本沒資料去做 04/21 00:30
s860134:現在應該有幾萬張已經標好內容的圖片去做訓練 要挑調空白 04/21 00:31
s860134:現在應該做的到了 04/21 00:32
懂得相關技術的人還在嘗試中,歡迎熟悉 opencv 之類技術的朋友參與
karlrecon:主要是資料合成上 如果分成人工+自動 座標問題較麻煩 04/21 00:32
tracetw:就是啊 不然以後還有6220/6227 要校正到什麼時候 04/21 00:32
s860134:空白的資料的話應該沒有座標的問題吧? 04/21 00:33
yaya: 04/21 00:33
yaya:鍵盤救國!!!!! 04/21 00:34
s860134:另外輸入30分鐘有發現原本編號300-400 現在都500-600多了 04/21 00:36
karlrecon:g0v高手應該會解決效率問題啦,給一點時間 04/21 00:38
s860134:http://campaign-finance.g0v.ctiml.tw/ <==真的上升很快 04/21 00:38
ronlai:突然連噴兩個讀取不到XD 看來人真的很多 04/21 00:39
yayaoh:這讓我想到以前的點點點大戰XD 04/21 00:39
wiydluck:神人 但是很多人打數字打錯 例如5820 打成5280 04/21 00:42
saithur:只怕黨工來亂按 04/21 00:42
k51686tw:大家加油!累了!先來去睡 04/21 00:42
elflily:如果空白頁有人回答是空白,那我要按空白還是這答案沒錯啊? 04/21 00:42
unrealfox:小問題 要達成幾格才會完成阿? 04/21 00:42
shizukuasn:按這答案沒錯就好 04/21 00:43
unrealfox:elflily 按這答案沒錯 04/21 00:43
wiydluck:有人回答的話 他會說有幾人回答 並說他的答案是什麼 04/21 00:43
danieo:突然出現 "阿麗雞肉飯" 害我笑噴 04/21 00:43
wiydluck:如果你認同他的答案 就點 這答案沒錯 04/21 00:43
shizukuasn:也有看到明明有字 上一個人卻輸入空白= = 04/21 00:44
ronlai:[震怒] 當打字兵也會被消夜文打中 04/21 00:44
crazypig:大推 大家一起來 04/21 00:45
wiydluck:這篇應該要至底._. 04/21 00:47
btogwx:可能有人電腦LAG吧? 04/21 00:48
btogwx:那如果3,000 三個人都看3000 那個逗點怎麼辦? 04/21 00:49
補進去也行,其實只要數值正確就可以了
yaya:全部都ok了嗎? 我目前還在用 怎麼還有沒輸入過的 04/21 00:49
btogwx:我幾乎都跳空白 跟確認上一個人 04/21 00:50
shizukuasn:我是都會更正 像是圖片"台北市"上個人打成"臺北市" 04/21 00:50
shizukuasn:這我也會改 04/21 00:50
wiydluck:很好奇為什麼監察院明明有電子檔 卻不能公佈? 04/21 00:51
歡迎一人一信去要求他們公佈,沒有人喜歡這樣子幹傻事的 ;)
rockcold2007:按了至少三十頁空白 怎麼都是空白.. 04/21 00:51
btogwx:圖跳什麼就打什麼 我會選字 雖然同音 04/21 00:51
noneed2argue:剛剛有次圖還沒開完 就不小心按了"這是空白" orz 04/21 00:53
noneed2argue:按太快orz 再請各位幫忙確認了 04/21 00:53
e33554431:我也不小心按到空白= = 04/21 00:54
murasei:那如果3,000 三個人都看3000 那個逗點怎麼辦?+1 04/21 00:54
wiydluck:話說這工作大部分都替代役做的 請監察院替代役COPY出來 04/21 00:54
glll4678:推推推 04/21 00:54
murasei:可以請工程師說明一下嗎???? 04/21 00:55
urreed:推注意不要重複多人作同一文件的浪費 04/21 00:55
shizukuasn:那就再輸入3,000吧 跟文件一模一樣比較好 04/21 00:56
rockcold2007:也許大家不知道連,也需要打上吧 04/21 00:56
unrealfox:看到甲一飯包...就餓了 宵夜文 04/21 00:57
wiydluck:這政治獻金 幫助我了解 我不應該去哪些地方消費 04/21 01:04
btogwx:有人看到人的全名嗎? 剛剛看到一個全名耶 正常嗎? 04/21 01:05
MermaidFA:大家的效率超高 04/21 01:06
charlie0228:遇到一堆空白= =+ 不過可以為台灣貢獻一點心力,真好 04/21 01:07
PPK33:瘋老頭的監察員可以掰了 04/21 01:08
wiydluck:正常 比較少而已 人民應該是出現在原始圖檔的捐贈者欄位 04/21 01:08
chi323:有全名很正常 我還打到金溥聰 不知道是出現在什麼欄目裡~XD 04/21 01:12
Gnome:照妖鏡計畫 04/21 01:17
bnn:雖然立意良好,但總覺得是分散罷免注意力和工程師動員能量... 04/21 01:21
有了這些數據,或許就能夠找到更多罷免的理由?
btogwx:可是若能把資料數位化 至少能影響多一些有投票權的吧 04/21 01:24
btogwx:掛網拼這個的 也許只是學生 尚未有投票權 04/21 01:25
btogwx:其實政治獻金能透明化 也許你也可以多消費一些你認同的店家 04/21 01:26
btogwx:總比有些大企業私下收受 利益交換來的好 至少我這樣認為拉 04/21 01:28
hellobuffet:good! 04/21 01:38
Sousake:推 04/21 01:44
s860134:到2000惹 只剩600 沒工作了??!! 04/21 02:09
danieo:它打錯字我要不要幫它挑 台北"是"松山區 算了 照打好了.. 04/21 02:23
Lamuneforty:馨北市...XD" 04/21 02:25
Splash5:加到手機瀏覽器裡 坐車無聊也可以幫忙 04/21 02:25
yeahomochi:馨北市+1... 04/21 02:44
creat0903:好多空白(哈欠~) 04/21 02:50
pdh2230:超屌 04/21 02:53
danieo:取得已經處理完成的頁面列表(2637 / 2637) 04/21 02:56
danieo:是說都只剩確認了嗎 04/21 02:57
Lamuneforty:好幾次都只有確認...告一段落?0.0 04/21 02:58
smokeman:真的只剩確認了 可雖然是確認 還是有不少錯誤阿! 04/21 02:58
歡迎參考上述 SOP ,進監察院去搶一些糧食出來?
danieo:我也抓到不少 有人浮水印也打上去 XD 04/21 03:06
pcyu16:要有足夠多的確認次數才能當作準確資料 04/21 03:06
pcyu16:要避免網站被攻擊之類的 少數一兩次的輸入不能當作結果 04/21 03:07
pcyu16:浮水印請無視 其他儘量照原文打 (包括數字逗號跟中文錯字) 04/21 03:11
saert:可不可以弄一個這答案沒錯的快捷鍵啊? 04/21 03:17
gogo650:"到監院列印"的工作要先線上"認領"和"排程"才有效率啊! 04/21 03:18
清單: https://raw.githubusercontent.com/ronnywang/sunshine.cy.gov.tw/master/list.csv 後面應該會想辦法寫認領程式吧,有人要跳坑嗎?
gogo650:我還有疑問 為何不能使用辨認軟體作初步輸入的工作 04/21 03:19
有做了,來不及合併,而且浮水印造成辨識品質不佳
s860134: 另外做第二輪還是發現有錯誤...包括自己輸錯XD 04/21 03:21
gogo650:"工人智慧"直接用在校核會更快呀 不是嗎? 04/21 03:21
btogwx:原來真的只剩確認了... 我還以為是我錯覺... 04/21 03:22
vicky77329:夜深了...好容易手滑QQ 04/21 03:25
pcyu16:答案沒錯的快捷鍵已經有了不是嗎.. 04/21 03:25
btogwx:= = 好奇什麼欄位可以填 郵局 耶 04/21 03:26
pcyu16:關於這個頁面的意見 可以找人去丟issue 04/21 03:26
pcyu16:http://bit.ly/1eRFvzZ 04/21 03:27
pcyu16:要填格子的時候 旁邊會有標記這是哪一頁的哪格 04/21 03:31
pcyu16:把那個數字記下來 可以對應原始文件 04/21 03:32
noneed2argue:我發現還是有人打錯耶 錯別字 或數字打錯 還是需校對 04/21 03:33
vicky77329:請問答案沒錯的快捷鍵是?? 04/21 03:34
danieo:只能用滑鼠點吧 04/21 03:36
s860134:其實點答案沒錯 你是傳送"目前答案"格子內的答案 04/21 03:51
williams7442:C語言應用在影像處理 電腦智慧的視覺 04/21 03:51
s860134:所以點同意 "" 或是自己點 "這是空白" 是同義 04/21 03:52
zxcbrian:推 04/21 04:29
samuraibin: 04/21 05:23
danieo:請問圖片是空白 卻有人輸入字 要改掉是按"這是空白" 還是打 04/21 05:38
danieo:個空格送出? 直接送出? 看到有一個這情況的居然被確認4次 04/21 05:39
ab32110:這真的超強!還有需要幫忙請通知 04/21 06:35
pcyu16:@danieo: 按 [這是空白] 04/21 07:01
danieo:喔喔 那我沒按錯 因為一直出現同樣的還以為我搞錯 04/21 07:09
gaden:真是太強大了!! 04/21 08:28
zooks:推 04/21 08:43
ooolllddd:推 04/21 08:58
bhgkai:推 04/21 09:11
aa874125:建議可以遊戲化,計次、積分、檔案數倒數,比較不會悶 04/21 09:12
aa874125:最好增加個積分榜,宅宅的執念是很可怕der~ 04/21 09:13
washltz:看了政黨捐款知道黨產有多好用 04/21 09:27
saxxas:滑2048的時間改輔助OCR 04/21 10:54
traipse:建議增加[上一頁]的功能 有時按沒錯按太多會突鎚 04/21 11:04
已經有類似建議 https://github.com/ctiml/campaign-finance.g0v.ctiml.tw/issues/18
traipse:如果帶隨身掃描儀去調資料是不是就不必花影印費了? 04/21 11:04
traipse:如果帶隨身掃描儀去調資料是不是就不必花影印費了? 04/21 11:05
如果螢幕上顯示的資料可以這樣子掃描的話?在螢幕上掃描數萬張圖片好像有點難度
aa874125:現在手機相機功能都這麼強,可以用拍照的嗎? 04/21 11:55
如果你拍照的速度可以快過雷射印表機,歡迎試試
rain6262:全形半形需要修改嗎?(按久了真的很容易手滑或眼殘...) 04/21 12:11
awashharp:現在是不是格子都打完了?我都遇到確認正不正確的題目 04/21 12:14
是的,這一輪基本上已經有超過 100% 的涵蓋率,超過的部份都是校正工作 ※ 編輯: olctw (218.164.0.81), 04/21/2014 12:31:21
pwhss409:推一個 04/21 14:54
peichiaC:讚!!!!!! 04/21 16:13
gintailan:大家加油!! 04/21 19:03
juliette:讚... =口= 04/21 19:16
mkz6:遇到名字卻6人確認空白? http://i.imgur.com/03RMSKv.jpg 04/21 19:17
awashharp:剛玩了快兩個小時的資料確認,有揪出一些錯誤的資料XD 04/21 20:23
awashharp:感覺確認到最後都是直覺反應XD 但還是可以看到錯誤XD 04/21 20:24