看板 Soft_Job 關於我們 聯絡資訊
花了很多P幣,跟時間再研究google跟備份網站 備份網站不是用多線程爬蟲技術嗎? 但是好像發現了,沒有這麼簡單 好像每個版,測試過,被備份的方式不同.... 說簡單,但也不簡單 這類網站所依賴的技術,其實滿簡單的 但是PTT只要發文權限跟方式不改,永遠都一定會被備份 發文的那個瞬間,因為很多地方不能改變,只能發文後再改 所以,第一次的文章標題,還有發文者一定會被紀錄 本文可以修改,所以必須等第二次才能解決 想問一下,PTT備份網站,像是PTTWEB 所仰賴的技術..... 謝謝! 損失好多P幣跟時間,血淚,才得到這種結論..... 人腦真的比不上電腦QQ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.137.62.1 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1633743659.A.19F.html
gasbomb: ……有人看得懂這篇嗎? 10/09 10:03
yinxuanh: 伸手文啊 10/09 10:08
loadingN: 為什麼會損失p幣 10/09 10:09
Raymond0710: https://github.com/PttCodingMan/PyPtt 10/09 10:14
PttLite: 看標題進來因為是DB backup或snapshot結果是爬蟲...我快 10/09 11:08
PttLite: 跟不上時代了.. 10/09 11:08
qrtt1: 看不懂想要幹麻 10/09 11:55
wahaha279: 看不懂在說什麼 10/09 11:58
yougigun: 我也跟不上你的腦 10/09 12:02
brianhsu: 請先閱讀「提問的智慧」,謝謝。 10/09 12:09
chocopie: 先定義你要備份的內容是甚麼。 10/09 12:50
chocopie: 是原本的內容一模一樣?還是只爬文章文字內容? 10/09 12:50
JimRoid: 看標題我以為你是要問快照之類的 10/09 12:55
utdsml: 原 po 應該是想問備份 PTT 裡面所有發推文紀錄的網站 10/09 13:02
moom50302: ctrl+S…? 10/09 13:05
eduishappy: 我覺得PTT備份文章的網站真的好厲害喔!全都可以記錄 10/09 13:06
stupid0319: 偷取別人網站內容叫備份¿¿¿ 10/09 13:37
geroge0820: 這就是工程師和客戶之間的思維差異 10/09 13:43
kyoe: 只要格式固定,都可以被解析 10/09 13:47
flypaper: 我程度太差看不懂 QQ 10/09 14:31
roccqqck: 爬蟲作業自己寫欸 本來每個網站爬蟲都不一樣 10/09 15:18
roccqqck: 都要修改 10/09 15:18
Olwen: 明明是中文,我確聽不懂 10/09 15:45
PttLite: 要用眼看 10/09 15:54
ChungLi5566: 看不懂的都沒有成為PM的資質 10/09 16:33
ChungLi5566: 客戶說的備份 要跟工程師說逆向工程才聽得懂 10/09 16:35
wave1et: ptt有個allpost版吧 10/09 17:19
PttLite: 為什麼要對自己的網站做逆向工程 10/09 18:12
RINPE: 沒有什麼是複製貼上解決不了的 10/09 18:18
sniper2824: 2012做到現在發文發問還像完全不懂程式的外行著實厲害 10/09 19:25
bill0205: 對不起我還真的看不懂 10/09 20:21
aidansky0989: 這個表達能力不愧是工程師 10/09 20:22
OrzOGC: 我看得懂,有人可以撿我去當PM嗎?QQ 10/09 20:22
viper9709: 看不懂想問什麼+1 10/09 20:45
pilor: 我看得懂中文看不懂這篇文 10/09 20:54
boy70263: Ctrl+A+C+P 10/09 21:34
ChungLi5566: 偷別人網站內容 然後做出相似的東西放出來 他想知道 10/09 21:57
ChungLi5566: 那些網站怎麼辦到的 10/09 21:57
wulouise: 沒講解決要解決什麼,一百遍都猜不透吧 10/09 23:41
BignoZe: 看得懂 還好我有看完新上的通靈王 10/09 23:54
好吧~ 我直說1.是用甚麼技術做出的網站? 2.如何防止一發文就被備份 3.可以從備份網站刪文嗎?
Kazimir: 公開網站要怎麼防止備份 你要他們刪文不然寫信去問看看R 10/10 04:46
寫了3封,沒人鳥~
qrtt1: 只有一開始就不存在的東西不會被備份 10/10 08:31
MarcoReus: 反向思考 你可以發加密文 10/10 08:48
art1: 去跟 ptt 站方要求禁止來自這些網站的爬蟲 10/10 09:38
art1: 應該說請求才對 10/10 09:38
FantasyRyu: 公開網站可以防爬蟲的話,那一開始你就發加密網站就好 10/10 09:50
daddy29: 砍站 10/10 10:19
我連這網站的技術都不知道~ 要怎麼砍? ※ 編輯: yobook (101.137.139.78 臺灣), 10/10/2021 10:20:25
aa06697: 公開網站 網站也不是你擁有的話 你單純發文沒辦法防吧 10/10 10:56
WJAider: 哪篇啊? 我架個網站備份那篇,你想刪聯絡我一定刪 10/10 13:10
sppmg: 我看唯一的問題應是:如何發文不留痕跡? 10/10 14:01
Apache: 不要上網 10/10 15:30
ChungLi5566: 駭進去砍啊 不然就走法律途徑 10/10 17:08
MonyemLi: 如果你是說刪除,那叫特權,工程師不能任意刪除的。公 10/10 17:59
MonyemLi: 司主管授權維運工程師,政府公權力要求私人企業 10/10 17:59
longlongint: 問netflix怎麼防止用直播截取卡把魷魚遊戲錄下來 10/10 18:28
longlongint: 阿你文章就發出來了 10/10 18:28
chocopie: 1. 直接爬BBS、爬PTT網頁版、爬別人的爬蟲 10/10 19:04
chocopie: 2. 如何防止? 1. 發在有讀取權限的版 2. 不要發文 10/10 19:04
chocopie: 3. 檯面上方法有許多,檯面下方法不好說 10/10 19:04
mathrew: 砍東西就是駭客行為啊,資訊資產保留的有一定的規範, 10/10 19:27
mathrew: 不是你要砍就砍 10/10 19:27
Apache: 你可以用GDPR去要求刪除 10/10 19:30
TakiDog: 支離破碎的發言 10/12 12:58
realbout: 這篇是三小.... 10/12 15:10
andrew5106: 啊不就爬蟲 10/12 18:11
andrew5106: 之前試過在文章開頭加個HTML註解,有些備份網站就抓不 10/12 18:12
andrew5106: 到內文 10/12 18:13
andrew5106: 嘗試更改你的內文阿,或是故意加一些語法讓爬蟲程式錯 10/12 18:15
andrew5106: 亂認不出來 10/12 18:15
andrew5106: 爬蟲只能抓固定Pattern的東西吧 10/12 18:15
uglykidjoe: 怎麼這麼多會通靈的人,真是太厲害了 10/22 17:24
cathychg: 程式碼,資料庫 系統環境安裝啊 02/09 12:48
cathychg: 資料庫比較麻煩 動態客戶資料要利用閒置時間備份。否則 02/09 12:49
cathychg: 資料會漏的 02/09 12:49