Examinați fișierele robots.txt pentru site-ul dvs. Web

Un fișier robots.txt stocat în rădăcina site-ului dvs. web va indica roboților web, cum ar fi păianjenii motorului de căutare, ce fișiere și fișiere le este permis să acceseze cu crawlere. Este ușor să utilizați un fișier robots.txt, dar sunt câteva lucruri pe care trebuie să le rețineți:

  1. Roboții web de pălărie neagră vor ignora fișierul dvs. robots.txt. Cele mai frecvente tipuri sunt roboții malware și roboții care caută adrese de e-mail pentru recoltare.
  2. Unii programatori noi vor scrie roboți care ignoră fișierul robots.txt. Acest lucru se face de obicei din greșeală.
  1. Oricine vă poate vedea fișierul robots.txt. Ele sunt numite întotdeauna robots.txt și sunt întotdeauna stocate la radacina site-ului.
  2. În cele din urmă, dacă cineva face legătura cu un fișier sau cu un director care este exclus din fișierul robots.txt dintr-o pagină care nu este exclusă de fișierul robots.txt, motoarele de căutare o pot găsi oricum.

Nu utilizați fișierele robots.txt pentru a ascunde ceva important. În schimb, trebuie să puneți informații importante în spatele parolelor securizate sau să le lăsați în întregime pe web.

Cum se utilizează aceste fișiere de probă

Copiați textul din proba care este cel mai aproape de ceea ce doriți să faceți și inserați-l în fișierul dvs. robots.txt. Modificați numele robotului, directorul și numele fișierelor pentru a se potrivi cu configurația preferată.

Două fișiere Robots.txt de bază

Agent utilizator: *
Nu permiteți: /

Acest fișier spune că orice robot (User-agent: *) care accesează acesta trebuie să ignore fiecare pagină de pe site (Disallow: /).

Agent utilizator: *
Disallow:

Acest fișier spune că orice robot (User-agent: *) care accesează acesta are permisiunea de a vizualiza fiecare pagină de pe site (Disallow:).

Puteți face acest lucru lăsând fișierul robots.txt gol sau nu aveți unul pe site-ul dvs. deloc.

Protejați directoarele de la roboți

Agent utilizator: *
Închideți: / cgi-bin /
Dezactivați: / temp /

Acest fișier spune că orice robot (Agent-utilizator: *) care accesează acesta trebuie să ignore directoarele / cgi-bin / și / temp / (Disallow: / cgi-bin / Disallow: / temp).

Protejați paginile specifice de la roboți

Agent utilizator: *
Dezactivați: /jenns-stuff.htm
Dezactivați: /private.php

Acest fișier spune că orice robot (User-agent: *) care îl accesează ar trebui să ignore fișierele /jenns-stuff.htm și /private.php (Disallow: /jenns-stuff.htm Disallow: /private.php).

Preveniți unui robot specific să acceseze site-ul dvs.

Agent utilizator: Lycos / xx
Nu permiteți: /

Acest fișier spune că botul Lycos (User-agent: Lycos / xx) nu este permis accesul oriunde pe site (Disallow: /).

Permiteți accesul unui singur robot specific

Agent utilizator: *
Nu permiteți: /
User-agent: Googlebot
Disallow:

Acest fișier mai întâi nu permite tuturor roboților cum am procedat mai sus și apoi le permite în mod explicit Googlebot (Agent-utilizator: Googlebot) să aibă acces la tot (Disallow:).

Combinați mai multe linii pentru a obține exact exclările pe care le doriți

În timp ce este mai bine să utilizați o linie de utilizator foarte agresivă, cum ar fi agentul utilizator: *, puteți fi la fel de specific cum vă place. Amintiți-vă că roboții citesc fișierul în ordine. Deci, dacă primele linii spun că toți robotii sunt blocați de tot, iar mai târziu în fișier se spune că tuturor roboților li se permite accesul la tot, roboții vor avea acces la tot.

Dacă nu sunteți sigur dacă ați scris corect fișierul robots.txt, puteți utiliza Instrumentele Google pentru webmasteri pentru a verifica fișierul robots.txt sau pentru a scrie unul nou.