robots.txt 使用
robots.txt 使用

之前在網誌中寫過兩篇ㄑㄧˊㄎㄜㄉㄧㄢˋㄋㄠˇ的相關文章,google和yahoo的搜尋引擎也很老實的把結果輸出在第一頁,雖然說我覺得我寫的內容很坦然,而且更覺得...

使用robots.txt教學、防止目錄內資料被登錄

使用robots.txt教學、防止目錄內資料被登錄現今的搜尋引擎(如:Google、Bing、百度等等)不會只是登錄網頁,透過網頁內部的連結,會深入每一個目錄內搜尋資料,常常我們會在網路上搜尋到pdf、doc、ppt檔案,如果要避免這些檔案被搜尋到,就必須使用...

** 本站引用參考文章部分資訊,基於少量部分引用原則,為了避免造成過多外部連結,保留參考來源資訊而不直接連結,也請見諒 **

百度用户服务中心

© Baidu 使用 百度前必读 ...

robots.txt基本用法

http://www.robotstxt.org/robotstxt.html http://help.yahoo.com/l/us/yahoo/search/webcrawler/ Google的robots.txt 文件 Google黑板报-如何使用robots.txt 维基百科-robots.txt nslookup命令用法 用Google Analytics统计页面加载时间 2 Comments 网站优化 : says: ...

如何使用 robots.txt 檔案來掌控搜尋引擎對我網站的存取? / 虛擬主機常見問題

我的網站平日上線人數不多,為何流量使用還是很大? 用戶的網站可能每日上站瀏覽人數不多,卻發現流量使用量增加的很快? 請進入控制台點選 Awstat,進入後點選左列之 "搜尋引擎網站的漫遊器",看看是不是搜尋引擎吃掉了您的流量。

Learn about robots.txt files

A robots.txt file is a file at the root of your site that indicates those parts of your site you don’t want accessed by search engine crawlers. The file uses the Robots Exclusion St

三分鐘搞懂SEO的《meta robots、robots.txt》

2016年5月18日 - meta robots以及robots.txt的工作分別是阻止Google 抓取,如果你有特定頁面會傷害使用者體驗(UX),你可以透過這些方式去阻止該頁面出 ...

瞭解robots.txt 檔案

使用robots.txt 封鎖網址. 瞭解robots.txt 檔案. 下一個: 建立robots.txt 檔案. robots.txt 檔案位於網站根目錄,能夠向搜尋引擎檢索器表明您不希望檢索器存取的網站內容 ...

robots.txt - 維基百科,自由的百科全書

如果想單獨定義搜尋引擎的漫遊器造訪子目錄時的行為,那麼可以將自定的設定合併到根目錄下的robots.txt,或者使用robots後設資料(Metadata,又稱元資料)。

非技術人員也能看懂的《meta robots、robots.txt》

2016年6月7日 - 這篇文章我假設你已經能夠區分抓取與索引的差別了,並且我將告訴你如何使用meta robots以及robots.txt來優化Google抓取與索引,若沒概念我 ...

Robots.txt 不為人知的設定

跳到 Robots.txt 的基本使用方式 - 最常使用的幾種robots.txt. 禁止所有搜尋引擎收錄 請小心使用. User-agent: * Disallow: /. 准許所有搜尋引擎, 收錄 ...

我的網頁設計

robots.txt 是用來告訴搜尋引擎哪些地方不可以拿去做全文檢索資料庫。robots.txt 樣本: User-agent: {Spider名} Disallow: {File位置} 設定方式很簡單: 使用 Notepad 來設定 robots.txt 上傳在網頁的最底部。robots.txt範例如下:


robots.txt 使用

robots.txt 使用

之前在網誌中寫過兩篇ㄑㄧˊㄎㄜㄉㄧㄢˋㄋㄠˇ的相關文章,google和yahoo的搜尋引擎也很老實的把結果輸出在第一頁,雖然說我覺得我寫的內容很坦然,而且更覺得褒多於貶,但是搜尋結果對ㄑㄧˊㄎㄜ而言對招生會造成影響。昨天他們資深的紅牌櫃台小小的跟我抱怨哩一下,說常常有學生都會說起我部落格內的文章,想也知道造成甚麼影響。我能清楚知道我寫過什麼,但是我不能預期別人看到文章後怎樣解讀,影響到別人招生當然不好,更何況我也是從那裏出來的。

就因如此,我要首次體驗一下robots.txt到底是怎樣使用囉,機器人來我家已經來過太多太多次,每個月都撈走上G的資料,到底有啥好撈我也不太清楚,四月的機器人紀錄如下:
31 個漫遊器*點擊數位元組最近參觀日期
Yahoo Slurp411513.83 GB2007年 4月 30日 23:59
Unknown robot (identified by 'spider')235022.18 GB2007年 4月 30日 23:59
EchO!22340328.09 MB2007年 4月 30日 23:58
Googlebot163951.31 GB2007年 4月 30日 23:51
Google AdSense103141022.38 MB2007年 4月 30日 23:57
MSNBot7575526.70 MB2007年 4月 30日 23:59
BaiDuSpider1932174.28 MB2007年 4月 30日 22:42
Unknown robot (identified by 'crawl')1175107.19 MB2007年 4月 25日 22:45
Feedfetcher-Google82761.79 MB2007年 4月 30日 23:41
Bloglines47827.12 MB2007年 4月 30日 22:53
其他2285125.51 MB
既然都看到哩機器人會來,那就試著寫一個robots.txt來爭對ㄑㄧˊㄎㄜ的文章做一個排除搜尋的動作,效果到底會怎樣我也不太能確定。

目前的寫入的robots.txt如下
User-agent: *
Disallow: /700
Disallow: /311

目前讓我疑慮的是他是否會把我兩個Disallow當成是目錄,一般來說目錄應該要再加一個/;在來就是已經上榜的搜尋,是否又會因此而下架呢?

提供我所參考robots.txt的資料:
http://www.robotstxt.org/wc/norobots.html#examples
http://blog.sklin.tw/2006/08/26/16/
http://www.seo.list.tw/2007/04/13/sitemap/
http://www.baidu.com/search/robots.html
http://www.kseo.cn/post/robotstxt.html
還有一個最重要得當然就是google的網站管理員
裡面也提供哩測試robots.txt的工具
雖然我得知哩測試結果,但是我也不太確定我是否能達成目的
URL 結果
URL Googlebot
https://ez3c.tw/ 允許的
偵測到目錄,特定檔案有不同的限制
阿這個到底是啥意思@@

最後,再提出一點,應該是robots.txt而非robot.txt,搜尋robot.txt還是可以看到很多資訊,但是在我的判斷之下,robots.txt似乎才是目前正確的使用。

robotstxt 使用
哇哇
哇哇

robotstxt 使用 相關文章