禁止 ChatGPT 爬蟲 GPTBot 爬取網站內容作為 AI 訓練教學
禁止 ChatGPT 爬蟲 GPTBot 爬取網站內容作為 AI 訓練教學

OpenAI旗下AI對話式機器人ChatGPT今年爆紅之後,有許多人在探討如何阻擋AI機器人利用自己的內容來進行AI語言模型訓練,這部分爭議非常大,其實在OpenAI的官...

如何阻擋 OpenAI ChatGPT 抓取或使用你的網站內容?

那麼要如何阻擋ChatGPT爬蟲來抓取你的網站內容呢?官方提供的說明文件也有如何阻止GPTBot存取網站的設定方式,如同其他網路爬蟲,GPTBot遵循robots.txt,只要進行設定即可將ChatGPT爬蟲排除在外,告訴它們不要存取網站或特定路徑。

** 本站引用參考文章部分資訊,基於少量部分引用原則,為了避免造成過多外部連結,保留參考來源資訊而不直接連結,也請見諒 **

如何利用robots.txt 與IP 阻擋ChatGPT 的網路爬蟲進入網站 ...

OpenAI 通過「GPTBot」和「ChatGPT-User」爬蟲的設計,確保它們遵守robots.txt 協議,同時公開了這些爬蟲所使用的IP 區段。這樣一來,網站管理者能夠根據自己的需求,自主 ...

OpenAI 更新说明「内容拥有者将可以拒绝网站数据被 ...

据《广告周刊》报道,8月初,《纽约时报》更新了其服务条款(TOS),明确禁止抓取其文章和图片用于人工智能…

如何阻擋OpenAI ChatGPT 抓取或使用你的網站內容?

4 天前 — 那麼要如何阻擋ChatGPT 爬蟲來抓取你的網站內容呢?官方提供的說明文件也有如何阻止GPTBot 存取網站的設定方式,如同其他網路爬蟲,GPTBot 遵循robots.txt ...

想做網址摘要別用 ChatGPT!使用免費 New Bing,手把手教你 2 步 ...

「請你讀取這個網址:https://medium.com/dean-lin/林鼎淵是文學獎得主,並做出內容摘要」 這是一個不存在的網址,筆者也並非文學獎得主,ChatGPT 只是為了可以跟你繼續聊下去,才給出這麼一個回應而已,請大家不要再讓 ChatGPT 幫你做網址摘要了。

〈阻止網路爬蟲 〉彙整頁面

免費圖片. 網站監測. 2023-08-22 by Pseric. OpenAI 旗下的人工智慧聊天機器人 ChatGPT 使用大量資料進行訓練,當中也包含了大量網路上的資訊,簡單來說,如果你有在網路撰寫內容(例如部落客),那麼內容有相當大的機會已被拿去作為 ChatGPT 語言模型訓練(雖然 OpenAI ...

ChatGPT怎麼用?有哪些問題與使用限制嗎?一文快速看懂

一文快速看懂|104職場力. ChatGPT怎麼用?. 有哪些問題與使用限制嗎?. 一文快速看懂. 由OpenAI開發的聊天機器人「ChatGPT」在全球爆紅,人性化的回應方式令人嘖嘖稱奇,本文實測GPT-3.5後,匯整了7個使用限制,以及付費版和免費版的比較。. 最後提醒你,無論 ...

讓聊天機器人開啟爬蟲技能! - Jason Tsai

Web Crawler 要想讓我們的Line Chatbot開啟爬蟲技能,得先對網路爬蟲 (Web Crawler)有一定的認識,那爬蟲究竟是什麼意思呢? 網路爬蟲 是一種用來自動瀏覽網頁的網路機器人。 其目的一般為編纂網路索引、網路搜尋引擎等站點。 網路爬蟲可以將自己所存取的頁面儲存下,以便搜尋引擎事後生成索引供使用者搜尋 (擷自維基百科)。 寫的有點複雜對吧?...

ChatGPT & OpenAI 中文討論區

有人可能會問,要怎麼確定自己的網站有沒有加上禁止爬蟲呢? 很簡單,只要到你的網站網址,後面加上/robots. txt 就可以查看。上面這段用文字可能 ...

如何禁止 GPTBot 用爬蟲爬你的網站資料

當然這個是很見仁見智,因為假如你的事業高度依賴 ChatGPT,可能開放網站給爬,讓 ChatGPT 變更好,也是對你有幫助。 有人可能會問,要怎麼確定自己的網站有沒有加上禁止爬蟲呢? 很簡單,只要到你的網站網址,後面加上 /robots.txt 就可以查看。

緊急降低搜索引擎爬蟲抓取網站速度的辦法 -

2022年6月15日 — 上圖:百度資源平台中調整百度蜘蛛對網站爬取的頻次(30天後恢複正常速度抓取)。 辦法二(臨時修改robots.txt):. 也可以使用robots.txt來禁止一些爬蟲 ...


禁止 ChatGPT 爬蟲 GPTBot 爬取網站內容作為 AI 訓練教學

禁止 ChatGPT 爬蟲 GPTBot 爬取網站內容作為 AI 訓練教學

OpenAI 旗下 AI 對話式機器人 ChatGPT 今年爆紅之後,有許多人在探討如何阻擋 AI 機器人利用自己的內容來進行 AI 語言模型訓練,這部分爭議非常大,其實在 OpenAI 的官方文件中就有說明 ChatGPT 的網路爬蟲機器人名為 GPTBot,也有公開爬蟲的 IP 可以讓大家阻擋 AI 蒐集網站資料,這篇就來跟大家分享如何禁止 ChatGPT 爬蟲機器人來使用你的資料。

透過設定網站中的 robots.txt 檔案,就可以阻擋 GPTBot 來你的網站爬資料,這是一個專門給各式網路爬蟲看的文件,文件中會告訴爬蟲哪些資料不能取用。

防止 AI 爬蟲

根據 OpenAI 官方文件表示,User-agent 為 GPTBot。User-agent 字串如上圖。下面幫大家列出,可直接複製使用:
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

禁止 GPTBot 爬取網站內容
ChatGPT 爬蟲IP
直接將上圖中的文字,加入網站中的 robots.txt 檔案中儲存即可,加入後 ChatGPT 的爬蟲就不會爬取網站資料。禁止內容如下,可直接複製使用:
User-agent: GPTBot
Disallow: /

開放部分內容爬取
ChatGPT 爬蟲禁止
除了全部禁止之外,也可以自訂允許 GPTBot 爬取的路徑,Allow 跟 Disallow 後面可以自由加上網站目錄路徑名稱。
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

IP 方式阻擋

OpenAI 還公布了自家的 GPTBot 使用 IP,因此也可以直接設定 .htaccess 檔案,就可以直接阻擋 GPTBot 爬蟲,以下是 OpenAI 所公布的 IP:
  • 20.15.240.64/28
  • 20.15.240.80/28
  • 20.15.240.96/28
  • 20.15.240.176/28
  • 20.15.241.0/28
  • 20.15.242.128/28
  • 20.15.242.144/28
  • 20.15.242.192/28
  • 40.83.2.64/28

資料來源:OpenAI

如何禁止 ChatGPT 爬蟲?這樣修改 robots 文字檔就解決
9M87
9M87

如何禁止 ChatGPT 爬蟲?這樣修改 robots 文字檔就解決 相關文章