The Web Robots FAQ Original of this document is here ł http://info.webcrawler.com/mak/projects/robots/faq.html These frequently asked questions about Web robots.
Send suggestions and comments to Martijn Koster.

About WWW robots
Indexing robots
For Server Administrators
Robots exclusion standard
Availability

About Web Robots

What is a WWW robot?

A robot is a program that automatically traverses the Web's hypertext structure by retrieving a document, and recursively retrieving all documents that are referenced.

Note that "recursive" here doesn't limit the definition to any specific traversal algorithm; even if a robot applies some heuristic to the selection and order of documents to visit and spaces out requests over a long space of time, it is still a robot.

Normal Web browsers are not robots, because the are operated by a human, and don't automatically retrieve referenced documents (other than inline images).

Web robots are sometimes referred to as Web Wanderers, Web Crawlers, or Spiders. These names are a bit misleading as they give the impression the software itself moves between sites like a virus; this not the case, a robot simply visits sites by requesting documents from them.

What is an agent?

The word "agent" is used for lots of meanings in computing these days. Specifically:

Autonomous agents: are programs that do travel between sites, deciding themselves when to move and what to do (e.g. General Magic's Telescript). These can only travel between special servers and are currently not widespread in the Internet.
Intelligent agents: are programs that help users with things, such as choosing a product, or guiding a user through form filling, or even helping users find things. These have generally little to do with networking.
User-agent: is a technical name for programs that perform networking tasks for a user, such as Web User-agents like Netscape Explorer, Email User-agent like Qualcomm Eudora etc.

What is a search engine?

A search engine is a program that searches through some dataset. In the context of the Web, the word "search engine" is most often used for search forms that search through databases of HTML documents gathered by a robot.

What other kinds of robots are there?

Robots can be used for a number of purposes:

Indexing
HTML validation
Link validation
"What's New" monitoring
Mirroring

See the list of active robots to see what robot does what. Don't ask me -- all I know is what's on the list...

So what are Robots, Spiders, Web Crawlers, Worms, Ants

They're all names for the same sort of thing, with slightly different connotations:

Robots: the generic name, see above.
Spiders: same as robots, but sounds cooler in the press.
Worms: same as robots, although technically a worm is a replicating program, unlike a robot.
Web crawlers: same as robots, but note WebCrawler is a specific robot
WebAnts: distributed cooperating robots.

Aren't robots bad for the web?

There are a few reasons people believe robots are bad for the Web:

Certain robot implementations can (and have in the past) overloaded networks and servers. This happens especially with people who are just starting to write a robot; these days there is sufficient information on robots to prevent some of these mistakes.
Robots are operated by humans, who make mistakes in configuration, or simply don't consider the implications of their actions. This means people need to be careful, and robot authors need to make it difficult for people to make mistakes with bad effects
Web-wide indexing robots build a central database of documents, which doesn't scale too well to millions of documents on millions of sites.

But at the same time the majority of robots are well designed, professionally operated, cause no problems, and provide a valuable service in the absence of widely deployed better solutions.

So no, robots aren't inherently bad, nor inherently brilliant, and need careful attention.

Are there any robot books?

Yes:

Internet Agents: Spiders, Wanderers, Brokers, and Bots by Fah-Chun Cheong.

This books covers Web robots, commerce transaction agents, Mud agents, and a few others. It includes source code for a simple Web robot based on top of libwww-perl4.

Its coverage of HTTP, HTML, and Web libraries is a bit too thin to be a "how to write a web robot" book, but it provides useful background reading and a good overview of the state-of-the-art, especially if you haven't got the time to find all the info yourself on the Web.

Published by New Riders, ISBN 1-56205-463-5.

Bots and Other Internet Beasties by Joseph Williams

I haven't seen this myself, but someone said: The William's book 'Bots and other Internet Beasties' was quit disappointing. It claims to be a 'how to' book on writing robots, but my impression is that it is nothing more than a collection of chapters, written by various people involved in this area and subsequently bound together.

Published by Sam's, ISBN: 1-57521-016-9

Web Client Programming with Perl by Clinton Wong

This O'Reilly book is planned for Fall 1996, check the O'Reilly Web Site for the current status. It promises to be a practical book, but I haven't seen it yet.

A few others can be found on the The Software Agents Mailing List FAQ

Where do I find out more about robots?

There is a Web robots home page on: http://info.webcrawler.com/mak/projects/robots/robots.html

While this is hosted at one of the major robots' site, it is an unbiased and reasoneably comprehensive collection of information which is maintained by Martijn Koster <m.koster@webcrawler.com>.

Of course the latest version of this FAQ is there.

You'll also find details and an archive of the robots mailing list, which is intended for technical discussions about robots.

Indexing robots

How does a robot decide where to visit?

This depends on the robot, each one uses different strategies. In general they start from a historical list of URLs, especially of documents with many links elsewhere, such as server lists, "What's New" pages, and the most popular sites on the Web.

Most indexing services also allow you to submit URLs manually, which will then be queued and visited by the robot.

Sometimes other sources for URLs are used, such as scanners through USENET postings, published mailing list achives etc.

Given those starting points a robot can select URLs to visit and index, and to parse and use as a source for new URLs.

How does an indexing robot decide what to index?

If an indexing robot knows about a document, it may decide to parse it, and insert it into its database. How this is done depends on the robot: Some robots index the HTML Titles, or the first few paragraphs, or parse the entire HTML and index all words, with weightings depending on HTML constructs, etc. Some parse the META tag, or other special hidden tags.

We hope that as the Web evolves more facilities becomes available to efficiently associate meta data such as indexing information with a document. This is being worked on...

How do I register my page with a robot?

You guessed it, it depends on the service :-) Most services have a link to a URL submission form on their search page.

Fortunately you don't have to submit your URL to every service by hand: Submit-it <URL: http://www.submit-it.com/> will do it for you.

For Server Administrators

How do I know if I've been visited by a robot?

You can check your server logs for sites that retrieve many documents, especially in a short time.

If your server supports User-agent logging you can check for retrievals with unusual User-agent heder values.

Finally, if you notice a site repeatedly checking for the file '/robots.txt' chances are that is a robot too.

I've been visited by a robot! Now what?

Well, nothing :-) The whole idea is they are automatic; you don't need to do anything.

If you think you have discovered a new robot (ie one that is not listed on the list of active robots, and it does more than sporadic visits, drop me a line so I can make a note of it for future reference. But please don't tell me about every robot that happens to drop by!

A robot is traversing my whole site too fast!

This is called "rapid-fire", and people usually notice it if they're monitoring or analysing an access log file.

First of all check if it is a problem by checking the load of your server, and monitoring your servers' error log, and concurrent connections if you can. If you have a medium or high performance server, it is quite likely to be able to cope a high load of even several requests per second, especially if the visits are quick.

However you may have problems if you have a low performance site, such as your own desktop PC or Mac you're working on, or you run low performance server software, or if you have many long retrievals (such as CGI scripts or large documents). These problems manifest themselves in refused connections, a high load, performance slowdowns, or in extreme cases a system crash.

If this happens, there are a few things you should do. Most importantly, start logging information: when did you notice, what happened, what do your logs say, what are you doing in response etc; this helps investigating the problem later. Secondly, try and find out where the robot came from, what IP addresses or DNS domains, and see if they are mentioned in the list of active robots. If you can identify a site this way, you can email the person responsible, and ask them what's up. If this doesn't help, try their own site for telephone numbers, or mail postmaster at their domain.

If the robot is not on the list, mail me with all the information you have collected, including actions on your part. If I can't help, at least I can make a note of it for others.

How do I keep a robot off my server?

Read the next section...

Robots exclusion standard

Why do I find entries for /robots.txt in my log files?

They are probably from robots trying to see if you have specified any rules for them using the Standard for Robot Exclusion, see also below.

If you don't care about robots and want to prevent the messages in your error logs, simply create an empty file called robots.txt in the root level of your server.

Don't put any HTML or English language "Who the hell are you?" text in it -- it will probably never get read by anyone :-)

How do I prevent robots scanning my site?

The quick way to prevent robots visiting your site is put these two lines into the /robots.txt file on your server:

User-agent: *
Disallow: /

but its easy to be more selective than that.

Where do I find out how /robots.txt files work?

You can read the whole standard specification but the basic concept is simple: by writing a structured text file you can indicate to robots that certain parts of your server are off-limits to some or all robots. It is best explained with an example:

# /robots.txt file for http://webcrawler.com/
# mail webmaster@webcrawler.com for constructive criticism

User-agent: webcrawler
Disallow:

User-agent: lycra
Disallow: /

User-agent: *
Disallow: /tmp
Disallow: /logs

The first two lines, starting with '#', specify a comment

The first paragraph specifies that the robot called 'webcrawler' has nothing disallowed: it may go anywhere.

The second paragraph indicates that the robot called 'lycra' has all relative URLs starting with '/' disallowed. Because all relative URL's on a server start with '/', this means the entire site is closed off.

The third paragraph indicates that all other robots should not visit URLs starting with /tmp or /log. Note the '*' is a special token; its not a regular expression.

Two common errors:

Regular expressions are _not_ supported: instead of 'Disallow: /tmp/*' just say 'Disallow: /tmp'.
You shouldn't put more than one path on a Disallow line (this may change in a future version of the spec)

Will the /robots.txt standard be extended?

Probably... there are some ideas floating around. They haven't made it into a coherent proposal because of time constraints, and because there is little pressure. Mail suggestions to the robots mailing list, and check the robots home page for work in progress.

What if I can't make a /robots.txt file?

Sometimes you cannot make a /robots.txt file, because you don't administer the entire server. All is not lost: there is a new standard for using HTML META tags to keep robots out of your documents.

The basic idea is that if you include a tag like:

<META NAME="ROBOTS" CONTENT="NOINDEX">

in your HTML document, that document won't be indexed.

If you do:

<META NAME="ROBOTS" CONTENT="NOFOLLOW">

the links in that document will not be parsed by the robot.

Availability

Where can I use a robot?

If you mean a search service, check out the various directory pages on the Web, such as Netscape's Exploring the Net or try one of the Meta search services such as MetaSearch

Where can I get a robot?

Well, you can have a look at the list of robots; I'm starting to indicate their public availability slowly.

In the meantime, two indexing robots that you should be able to get hold of are Harvest (free), and Verity's.

Where can I get the source code for a robot?

See above -- some may be willing to give out source code.

Alternatively check out the libwww-perl5 package, that has a simple example.

I'm writing a robot, what do I need to be careful of?

Lots. First read through all the stuff on the robot page then read the proceedings of past WWW Conferences, and the complete HTTP and HTML spec. Yes; it's a lot of work :-)

I've written a robot, how do I list it?

Simply fill in a form you can find on The Web Robots Database and email it to me.

Martijn Koster

Ťĺńęîëüęî ńëîâ î ňîě, ęŕę đŕáîňŕţň đîáîňű (spiders) ďîčńęîâűő ěŕřčí €íäđĺé €ëčęáĺđîâ, –ĺíňđ íôîđěŕöčîííűő ’ĺőíîëîăčé

‚âĺäĺíčĺ
ROBOTS ěĺňŕ-ňŕăč

‚âĺäĺíčĺ

ťňŕ ńňŕňüß âîâńĺ íĺ ßâëßĺňńß ďîďűňęîé îáúßńíčňü, ęŕę đŕáîňŕţň ďîčńęîâűĺ ěŕřčíű âîîáůĺ (ýňî know-how čő ďđîčçâîäčňĺëĺé). Žäíŕęî, ďî ěîĺěó ěíĺíčţ, îíŕ ďîěîćĺň ďîíßňü ęŕę ěîćíî óďđŕâëßňü ďîâĺäĺíčĺě ďîčńęîâűő đîáîňîâ (wanderers, spiders, robots - ďđîăđŕěěű, ń ďîěîůüţ ęîňîđűő ňŕ čëč číŕß ďîčńęîâŕß ńčńňĺěŕ îářŕđčâŕĺň ńĺňü č číäĺęńčđóĺň âńňđĺ÷ŕţůčĺńß äîęóěĺíňű) č ęŕę ďđŕâčëüíî ďîńňđîčňü ńňđóęňóđó ńĺđâĺđŕ č ńîäĺđćŕůčőńß íŕ íĺě äîęóěĺíňîâ, ÷ňîáű ‚ŕř ńĺđâĺđ ëĺăęî č őîđîřî číäĺęńčđîâŕëńß.

Źĺđâîé ďđč÷číîé ňîăî, ÷ňî ß đĺřčëńß íŕďčńŕňü ýňó ńňŕňüţ, ßâčëńß ńëó÷ŕé, ęîăäŕ ß čńńëĺäîâŕë ôŕéë ëîăîâ äîńňóďŕ ę ěîĺěó ńĺđâĺđó č îáíŕđóćčë ňŕě ńëĺäóţůčĺ äâĺ ńňđîęč:

lycosidae.lycos.com - - [01/Mar/1997:21:27:32 -0500] "GET /robots.txt HTTP/1.0" 404 -
lycosidae.lycos.com - - [01/Mar/1997:21:27:39 -0500] "GET / HTTP/1.0" 200 3270

ňî ĺńňü Lycos îáđŕňčëńß ę ěîĺěó ńĺđâĺđó, íŕ ďĺđâűé çŕďđîń ďîëó÷čë, ÷ňî ôŕéëŕ /robots.txt íĺň, îáíţőŕë ďĺđâóţ ńňđŕíčöó, č îňâŕëčë. …ńňĺńňâĺííî, ěíĺ ýňî íĺ ďîíđŕâčëîńü, č ß íŕ÷ŕë âűßńíßňü ÷ňî ę ÷ĺěó.

Žęŕçűâŕĺňńß, âńĺ "óěíűĺ" ďîčńęîâűĺ ěŕřčíű ńíŕ÷ŕëŕ îáđŕůŕţňńß ę ýňîěó ôŕéëó, ęîňîđűé äîëćĺí ďđčńóňńňâîâŕňü íŕ ęŕćäîě ńĺđâĺđĺ. ťňîň ôŕéë îďčńűâŕĺň ďđŕâŕ äîńňóďŕ äëß ďîčńęîâűő đîáîňîâ, ďđč÷ĺě ńóůĺńňâóĺň âîçěîćíîńňü óęŕçŕňü äëß đŕçëč÷íűő đîáîňîâ đŕçíűĺ ďđŕâŕ. „ëß íĺăî ńóůĺńňâóĺň ńňŕíäŕđň ďîä íŕçâŕíčĺě Standart for Robot Exclusion.

Źî ěíĺíčţ ‹óčńŕ Śîíüĺ (Louis Monier, Altavista), ňîëüęî 5% âńĺő ńŕéňîâ â íŕńňîßůĺĺ âđĺěß čěĺĺň íĺ ďóńňűĺ ôŕéëű /robots.txt ĺńëč âîîáůĺ îíč (ýňč ôŕéëű) ňŕě ńóůĺńňâóţň. ťňî ďîäňâĺđćäŕĺňńß číôîđěŕöčĺé, ńîáđŕííîé ďđč íĺäŕâíĺě čńńëĺäîâŕíčč ëîăîâ đŕáîňű đîáîňŕ Lycos. ŕđëü Šîëëŕđ (Charles P.Kollar, Lycos) ďčřĺň, ÷ňî ňîëüęî 6% îň âńĺő çŕďđîńîâ íŕ ďđĺäěĺň /robots.txt čěĺţň ęîä đĺçóëüňŕňŕ 200. ‚îň íĺńęîëüęî ďđč÷čí, ďî ęîňîđűě ýňî ďđîčńőîäčň:

ëţäč, ęîňîđűĺ óńňŕíŕâëčâŕţň ‚ĺá-ńĺđâĺđŕ, ďđîńňî íĺ çíŕţň íč îá ýňîě ńňŕíäŕđňĺ, íč î íĺîáőîäčěîńňč ńóůĺńňâîâŕíčß ôŕéëŕ /robots.txt.
íĺ îáßçŕňĺëüíî ÷ĺëîâĺę, číńňŕëëčđîâŕâřčé ‚ĺá-ńĺđâĺđ, çŕíčěŕĺňńß ĺăî íŕďîëíĺíčĺě, ŕ ňîň, ęňî ßâëßĺňńß âĺáěŕńňĺđîě, íĺ čěĺĺň äîëćíîăî ęîíňŕęňŕ ń ŕäěčíčńňđŕňîđîě ńŕěîé "ćĺëĺçßęč".
ýňî ÷čńëî îňđŕćŕĺň ÷čńëî ńŕéňîâ, ęîňîđűĺ äĺéńňâčňĺëüíî íóćäŕţňńß â čńęëţ÷ĺíčč ëčříčő çŕďđîńîâ đîáîňîâ, ďîńęîëüęó íĺ íŕ âńĺő ńĺđâĺđŕő čěĺĺňńß ňŕęîé ńóůĺńňâĺííűé ňđŕôčę, ďđč ęîňîđîě ďîńĺůĺíčĺ ńĺđâĺđŕ ďîčńęîâűě đîáîňîě, ńňŕíîâčňńß çŕěĺňíűě äëß ďđîńňűő ďîëüçîâŕňĺëĺé.

”îđěŕň ôŕéëŕ /robots.txt.

”ŕéë /robots.txt ďđĺäíŕçíŕ÷ĺí äëß óęŕçŕíčß âńĺě ďîčńęîâűě đîáîňŕě (spiders) číäĺęńčđîâŕňü číôîđěŕöčîííűĺ ńĺđâĺđŕ ňŕę, ęŕę îďđĺäĺëĺíî â ýňîě ôŕéëĺ, ň.ĺ. ňîëüęî ňĺ äčđĺęňîđčč č ôŕéëű ńĺđâĺđŕ, ęîňîđűĺ Ť… îďčńŕíű â /robots.txt. ťňî ôŕéë äîëćĺí ńîäĺđćŕňü 0 čëč áîëĺĺ çŕďčńĺé, ęîňîđűĺ ńâßçŕíű ń ňĺě čëč číűě đîáîňîě (÷ňî îďđĺäĺëßĺňńß çíŕ÷ĺíčĺě ďîëß agent_id), č óęŕçűâŕţň äëß ęŕćäîăî đîáîňŕ čëč äëß âńĺő ńđŕçó ÷ňî čěĺííî čě Ť… Ť€„Ž číäĺęńčđîâŕňü. ’îň, ęňî ďčřĺň ôŕéë /robots.txt, äîëćĺí óęŕçŕňü ďîäńňđîęó Product Token ďîëß User-Agent, ęîňîđóţ ęŕćäűé đîáîň âűäŕĺň íŕ HTTP-çŕďđîń číäĺęńčđóĺěîăî ńĺđâĺđŕ. Ťŕďđčěĺđ, íűíĺříčé đîáîň Lycos íŕ ňŕęîé çŕďđîń âűäŕĺň â ęŕ÷ĺńňâĺ ďîëß User-Agent:

	Lycos_Spider_(Rex)/1.0 libwww/3.1

…ńëč đîáîň Lycos íĺ íŕřĺë ńâîĺăî îďčńŕíčß â /robots.txt - îí ďîńňóďŕĺň ňŕę, ęŕę ń÷čňŕĺň íóćíűě. Šŕę ňîëüęî đîáîň Lycos "óâčäĺë" â ôŕéëĺ /robots.txt îďčńŕíčĺ äëß ńĺáß - îí ďîńňóďŕĺň ňŕę, ęŕę ĺěó ďđĺäďčńŕíî.

Źđč ńîçäŕíčč ôŕéëŕ /robots.txt ńëĺäóĺň ó÷čňűâŕňü ĺůĺ îäčí ôŕęňîđ - đŕçěĺđ ôŕéëŕ. Źîńęîëüęó îďčńűâŕĺňńß ęŕćäűé ôŕéë, ęîňîđűé íĺ ńëĺäóĺň číäĺęńčđîâŕňü, äŕ ĺůĺ äëß ěíîăčő ňčďîâ đîáîňîâ îňäĺëüíî, ďđč áîëüřîě ęîëč÷ĺńňâĺ íĺ ďîäëĺćŕůčő číäĺęńčđîâŕíčţ ôŕéëîâ đŕçěĺđ /robots.txt ńňŕíîâčňńß ńëčřęîě áîëüřčě. ‚ ýňîě ńëó÷ŕĺ ńëĺäóĺň ďđčěĺíßňü îäčí čëč íĺńęîëüęî ńëĺäóţůčő ńďîńîáîâ ńîęđŕůĺíčß đŕçěĺđŕ /robots.txt:

óęŕçűâŕňü äčđĺęňîđčţ, ęîňîđóţ íĺ ńëĺäóĺň číäĺęńčđîâŕňü, č, ńîîňâĺňńňâĺííî, íĺ ďîäëĺćŕůčĺ číäĺęńčđîâŕíčţ ôŕéëű đŕńďîëŕăŕňü čěĺííî â íĺé
ńîçäŕâŕňü ńňđóęňóđó ńĺđâĺđŕ ń ó÷ĺňîě óďđîůĺíčß îďčńŕíčß čńęëţ÷ĺíčé â /robots.txt
óęŕçűâŕňü îäčí ńďîńîá číäĺęńčđîâŕíčß äëß âńĺő agent_id
óęŕçűâŕňü ěŕńęč äëß äčđĺęňîđčé č ôŕéëîâ

‡ŕďčńč (records) ôŕéëŕ /robots.txt

Žáůĺĺ îďčńŕíčĺ ôîđěŕňŕ çŕďčńč.

[ # comment string NL ]*

User-Agent: [ [ WS ]+ agent_id ]+ [ [ WS ]* # comment string ]? NL

[ # comment string NL ]*

Disallow: [ [ WS ]+ path_root ]* [ [ WS ]* # comment string ]? NL

[

# comment string NL

|

Disallow: [ [ WS ]+ path_root ]* [ [ WS ]* # comment string ]? NL

]*

[ NL ]+

Źŕđŕěĺňđű

Žďčńŕíčĺ ďŕđŕěĺňđîâ, ďđčěĺíßĺěűő â çŕďčńßő /robots.txt

[...]+ Šâŕäđŕňíűĺ ńęîáęč ńî ńëĺäóţůčě çŕ íčěč çíŕęîě + îçíŕ÷ŕţň, ÷ňî â ęŕ÷ĺńňâĺ ďŕđŕěĺňđîâ äîëćíű áűňü óęŕçŕíű îäčí čëč íĺńęîëüęî ňĺđěčíîâ.

Ťŕďđčěĺđ, ďîńëĺ "User-Agent:" ÷ĺđĺç ďđîáĺë ěîăóň áűňü óęŕçŕíű îäčí čëč íĺńęîëüęî agent_id.

[...]* Šâŕäđŕňíűĺ ńęîáęč ńî ńëĺäóţůčě çŕ íčěč çíŕęîě * îçíŕ÷ŕţň, ÷ňî â ęŕ÷ĺńňâĺ ďŕđŕěĺňđîâ ěîăóň áűňü óęŕçŕíű íîëü čëč íĺńęîëüęî ňĺđěčíîâ.

Ťŕďđčěĺđ, ‚ű ěîćĺňĺ ďčńŕňü čëč íĺ ďčńŕňü ęîěěĺíňŕđčč.

[...]? Šâŕäđŕňíűĺ ńęîáęč ńî ńëĺäóţůčě çŕ íčěč çíŕęîě ? îçíŕ÷ŕţň, ÷ňî â ęŕ÷ĺńňâĺ ďŕđŕěĺňđîâ ěîăóň áűňü óęŕçŕíű íîëü čëč îäčí ňĺđěčí.

Ťŕďđčěĺđ, ďîńëĺ "User-Agent: agent_id" ěîćĺň áűňü íŕďčńŕí ęîěěĺíňŕđčé.

..|.. îçíŕ÷ŕĺň čëč ňî, ÷ňî äî ÷ĺđňű, čëč ňî, ÷ňî ďîńëĺ.

WS îäčí čç ńčěâîëîâ - ďđîáĺë (011) čëč ňŕáóëßöčß (040)

NL îäčí čç ńčěâîëîâ - ęîíĺö ńňđîęč (015) , âîçâđŕň ęŕđĺňęč (012) čëč îáŕ ýňčő ńčěâîëŕ (Enter)

User-Agent: ęëţ÷ĺâîĺ ńëîâî (çŕăëŕâíűĺ č ďđîďčńíűĺ áóęâű đîëč íĺ čăđŕţň).

Źŕđŕěĺňđŕěč ßâëßţňńß agent_id ďîčńęîâűő đîáîňîâ.

Disallow: ęëţ÷ĺâîĺ ńëîâî (çŕăëŕâíűĺ č ďđîďčńíűĺ áóęâű đîëč íĺ čăđŕţň).

Źŕđŕěĺňđŕěč ßâëßţňńß ďîëíűĺ ďóňč ę íĺčíäĺęńčđóĺěűě ôŕéëŕě čëč äčđĺęňîđčßě

# íŕ÷ŕëî ńňđîęč ęîěěĺíňŕđčĺâ, comment string - ńîáńňâĺííî ňĺëî ęîěěĺíňŕđčß.

agent_id ëţáîĺ ęîëč÷ĺńňâî ńčěâîëîâ, íĺ âęëţ÷ŕţůčő WS č NL, ęîňîđűĺ îďđĺäĺëßţň agent_id đŕçëč÷íűő ďîčńęîâűő đîáîňîâ. ‡íŕę * îďđĺäĺëßĺň âńĺő đîáîňîâ ńđŕçó.

path_root ëţáîĺ ęîëč÷ĺńňâî ńčěâîëîâ, íĺ âęëţ÷ŕţůčő WS č NL, ęîňîđűĺ îďđĺäĺëßţň ôŕéëű č äčđĺęňîđčč, íĺ ďîäëĺćŕůčĺ číäĺęńčđîâŕíčţ.

ŕńřčđĺííűĺ ęîěěĺíňŕđčč ôîđěŕňŕ.

Šŕćäŕß çŕďčńü íŕ÷číŕĺňńß ńî ńňđîęč User-Agent, â ęîňîđîé îďčńűâŕĺňńß ęŕęčě čëč ęŕęîěó ďîčńęîâîěó đîáîňó ýňŕ çŕďčńü ďđĺäíŕçíŕ÷ŕĺňńß. ‘ëĺäóţůŕß ńňđîęŕ: Disallow. ‡äĺńü îďčńűâŕţňńß íĺ ďîäëĺćŕůčĺ číäĺęńŕöčč ďóňč č ôŕéëű. Š€†„€ź çŕďčńü „Ž‹†Ť€ čěĺňü ęŕę ěčíčěóě ýňč äâĺ ńňđîęč (lines). ‚ńĺ îńňŕëüíűĺ ńňđîęč ßâëßţňńß îďöčßěč. ‡ŕďčńü ěîćĺň ńîäĺđćŕňü ëţáîĺ ęîëč÷ĺńňâî ńňđîę ęîěěĺíňŕđčĺâ. Šŕćäŕß ńňđîęŕ ęîěěĺíňŕđčß äîëćíŕ íŕ÷číŕňüńß ń ńčěâîëŕ # . ‘ňđîęč ęîěěĺíňŕđčĺâ ěîăóň áűňü ďîěĺůĺíű â ęîíĺö ńňđîę User-Agent č Disallow. ‘čěâîë # â ęîíöĺ ýňčő ńňđîę číîăäŕ äîáŕâëßĺňńß äëß ňîăî, ÷ňîáű óęŕçŕňü ďîčńęîâîěó đîáîňó, ÷ňî äëčííŕß ńňđîęŕ agent_id čëč path_root çŕęîí÷ĺíŕ. …ńëč â ńňđîęĺ User-Agent óęŕçŕíî íĺńęîëüęî agent_id, ňî óńëîâčĺ path_root â ńňđîęĺ Disallow áóäĺň âűďîëíĺíî äëß âńĺő îäčíŕęîâî. Žăđŕíč÷ĺíčé íŕ äëčíó ńňđîę User-Agent č Disallow íĺň. …ńëč ďîčńęîâűé đîáîň íĺ îáíŕđóćčë â ôŕéëĺ /robots.txt ńâîĺăî agent_id, ňî îí čăíîđčđóĺň /robots.txt.

…ńëč íĺ ó÷čňűâŕňü ńďĺöčôčęó đŕáîňű ęŕćäîăî ďîčńęîâîăî đîáîňŕ, ěîćíî óęŕçŕňü čńęëţ÷ĺíčß äëß âńĺő đîáîňîâ ńđŕçó. ťňî äîńňčăŕĺňńß çŕäŕíčĺě ńňđîęč

	User-Agent: *

…ńëč ďîčńęîâűé đîáîň îáíŕđóćčň â ôŕéëĺ /robots.txt íĺńęîëüęî çŕďčńĺé ń óäîâëĺňâîđßţůčě ĺăî çíŕ÷ĺíčĺě agent_id, ňî đîáîň âîëĺí âűáčđŕňü ëţáóţ čç íčő.

Šŕćäűé ďîčńęîâűé đîáîň áóäĺň îďđĺäĺëßňü ŕáńîëţňíűé URL äëß ÷ňĺíčß ń ńĺđâĺđŕ ń čńďîëüçîâŕíčĺě çŕďčńĺé /robots.txt. ‡ŕăëŕâíűĺ č ńňđî÷íűĺ ńčěâîëű â path_root Ś…ž’ çíŕ÷ĺíčĺ.

Źđčěĺđű.

Źđčěĺđ 1:

User-Agent: *

Disallow: /

User-Agent: Lycos

Disallow: /cgi-bin/ /tmp/

‚ ďđčěĺđĺ 1 ôŕéë /robots.txt ńîäĺđćčň äâĺ çŕďčńč. Źĺđâŕß îňíîńčňńß ęî âńĺě ďîčńęîâűě đîáîňŕě č çŕďđĺůŕĺň číäĺęńčđîâŕňü âńĺ ôŕéëű. ‚ňîđŕß îňíîńčňńß ę ďîčńęîâîěó đîáîňó Lycos č ďđč číäĺęńčđîâŕíčč čě ńĺđâĺđŕ çŕďđĺůŕĺň äčđĺęňîđčč /cgi-bin/ č /tmp/, ŕ îńňŕëüíűĺ - đŕçđĺřŕĺň. ’ŕęčě îáđŕçîě ńĺđâĺđ áóäĺň ďđîčíäĺęńčđîâŕí ňîëüęî ńčńňĺěîé Lycos.

Źđčěĺđ 2:

User-Agent: Copernicus Fred

Disallow:

User-Agent: * Rex

Disallow: /t

‚ ďđčěĺđĺ 2 ôŕéë /robots.txt ńîäĺđćčň äâĺ çŕďčńč. Źĺđâŕß đŕçđĺřŕĺň ďîčńęîâűě đîáîňŕě Copernicus č Fred číäĺęńčđîâŕňü âĺńü ńĺđâĺđ. ‚ňîđŕß - çŕďđĺůŕĺň âńĺě č îńĺáĺííî đîáîňó Rex číäĺęńčđîâŕňü ňŕęčĺ äčđĺęňîđčč č ôŕéëű, ęŕę /tmp/, /tea-time/, /top-cat.txt, /traverse.this č ň.ä. ťňî ęŕę đŕç ńëó÷ŕé çŕäŕíčß ěŕńęč äëß äčđĺęňîđčé č ôŕéëîâ.

Źđčěĺđ 3:

# This is for every spider!

User-Agent: *

# stay away from this

Disallow: /spiders/not/here/ #and everything in it

Disallow: # a little nothing

Disallow: #This could be habit forming!

# Don't comments make code much more readable!!!

‚ ďđčěĺđĺ 3 - îäíŕ çŕďčńü. ‡äĺńü âńĺě đîáîňŕě çŕďđĺůŕĺňńß číäĺęńčđîâŕňü äčđĺęňîđčţ /spiders/not/here/, âęëţ÷ŕß ňŕęčĺ ďóňč č ôŕéëű ęŕę /spiders/not/here/really/, /spiders/not/here/yes/even/me.html. Žäíŕęî ńţäŕ íĺ âőîäßň /spiders/not/ čëč /spiders/not/her (â äčđĺęňîđčč '/spiders/not/').

Ťĺęîňîđűĺ ďđîáëĺěű, ńâßçŕííűĺ ń ďîčńęîâűěč đîáîňŕěč.

Ťĺçŕęîí÷ĺííîńňü ńňŕíäŕđňŕ (Standart for Robot Exclusion).

Š ńîćŕëĺíčţ, ďîńęîëüęó ďîčńęîâűĺ ńčńňĺěű ďîßâčëčńü íĺ ňŕę äŕâíî, ńňŕíäŕđň äëß đîáîňîâ íŕőîäčňńß â ńňŕäčč đŕçđŕáîňęč, äîđŕáîňęč, íó č ň.ä. ťňî îçíŕ÷ŕĺň, ÷ňî â áóäóůĺě ńîâńĺě íĺîáßçŕňĺëüíî ďîčńęîâűĺ ěŕřčíű áóäóň čě đóęîâîäńňâîâŕňüńß.

“âĺëč÷ĺíčĺ ňđŕôčęŕ.

ťňŕ ďđîáëĺěŕ íĺ ńëčřęîě ŕęňóŕëüíŕ äëß đîńńčéńęîăî ńĺęňîđŕ Internet, ďîńęîëüęó íĺ ňŕę óć ěíîăî â îńńčč ńĺđâĺđîâ ń ňŕęčě ńĺđüĺçíűě ňđŕôčęîě, ÷ňî ďîńĺůĺíčĺ čő ďîčńęîâűě đîáîňîě áóäĺň ěĺřŕňü îáű÷íűě ďîëüçîâŕňĺëßě. ‘îáńňâĺííî, ôŕéë /robots.txt äëß ňîăî č ďđĺäíŕçíŕ÷ĺí, ÷ňîáű îăđŕíč÷čâŕňü äĺéńňâčß đîáîňîâ.

Ťĺ âńĺ ďîčńęîâűĺ đîáîňű čńďîëüçóţň /robots.txt.

Ťŕ ńĺăîäíßříčé äĺíü ýňîň ôŕéë îáßçŕňĺëüíî çŕďđŕřčâŕĺňńß ďîčńęîâűěč đîáîňŕěč ňîëüęî ňŕęčő ńčńňĺě ęŕę Altavista, Excite, Infoseek, Lycos, OpenText č WebCrawler.

ńďîëüçîâŕíčĺ ěĺňŕ-ňŕăîâ HTML.

Ťŕ÷ŕëüíűé ďđîĺęň, ęîňîđűé áűë ńîçäŕí â đĺçóëüňŕňĺ ńîăëŕřĺíčé ěĺćäó ďđîăđŕěěčńňŕěč íĺęîňîđîăî ÷čńëŕ ęîěěĺđ÷ĺńęčő číäĺęńčđóţůčő îđăŕíčçŕöčé (Excite, Infoseek, Lycos, Opentext č WebCrawler) íŕ íĺäŕâíĺě ńîáđŕíčč Distributing Indexing Workshop (W3C) , íčćĺ.

Ťŕ ýňîě ńîáđŕíčč îáńóćäŕëîńü čńďîëüçîâŕíčĺ ěĺňŕ-ňŕăîâ HTML äëß óďđŕâëĺíčß ďîâĺäĺíčĺě ďîčńęîâűő đîáîňîâ, íî îęîí÷ŕňĺëüíîăî ńîăëŕřĺíčß äîńňčăíóňî íĺ áűëî. űëč îďđĺäĺëĺíű ńëĺäóţůčĺ ďđîáëĺěű äëß îáńóćäĺíčß â áóäóůĺě:

Ťĺîďđĺäĺëĺííîńňč â ńďĺöčôčęŕöčč ôŕéëŕ /robots.txt
’î÷íîĺ îďđĺäĺëĺíčĺ čńďîëüçîâŕíčß ěĺňŕ-ňŕăîâ HTML, čëč äîďîëíčňĺëüíűĺ ďîëß â ôŕéëĺ /robots.txt
íôîđěŕöčß "Please visit"
’ĺęóůčé ęîíňđîëü číôîđěŕöčč: číňĺđâŕë čëč ěŕęńčěóě îňęđűňűő ńîĺäčíĺíčé ń ńĺđâĺđîě, ďđč ęîňîđűő ěîćíî íŕ÷číŕňü číäĺęńčđîâŕňü ńĺđâĺđ.

ROBOTS ěĺňŕ-ňŕăč

ťňîň ňŕă ďđĺäíŕçíŕ÷ĺí äëß ďîëüçîâŕňĺëĺé, ęîňîđűĺ íĺ ěîăóň ęîíňđîëčđîâŕňü ôŕéë /robots.txt íŕ ńâîčő âĺá-ńŕéňŕő. ’ŕă ďîçâîëßĺň çŕäŕňü ďîâĺäĺíčĺ ďîčńęîâîăî đîáîňŕ äëß ęŕćäîé HTML-ńňđŕíčöű, îäíŕęî ďđč ýňîě íĺëüçß ńîâńĺě čçáĺćŕňü îáđŕůĺíčß đîáîňŕ ę íĺé (ęŕę âîçěîćíî óęŕçŕňü â ôŕéëĺ /robots.txt).

robot_terms - ýňî đŕçäĺëĺííűé çŕďßňűěč ńďčńîę ńëĺäóţůčő ęëţ÷ĺâűő ńëîâ (çŕăëŕâíűĺ čëč ńňđî÷íűĺ ńčěâîëű đîëč íĺ čăđŕţň): ALL, NONE, INDEX, NOINDEX, FOLLOW, NOFOLLOW.

NONE - ăîâîđčň âńĺě đîáîňŕě čăíîđčđîâŕňü ýňó ńňđŕíčöó ďđč číäĺęńŕöčč (ýęâčâŕëĺíňíî îäíîâđĺěĺííîěó čńďîëüçîâŕíčţ ęëţ÷ĺâűő ńëîâ NOINDEX, NOFOLLOW).

ALL - đŕçđĺřŕĺň číäĺęńčđîâŕňü ýňó ńňđŕíčöó č âńĺ ńńűëęč čç íĺĺ (ýęâčâŕëĺíňíî îäíîâđĺěĺííîěó čńďîëüçîâŕíčţ ęëţ÷ĺâűő ńëîâ INDEX, FOLLOW).

INDEX - đŕçđĺřŕĺň číäĺęńčđîâŕňü ýňó ńňđŕíčöó

NOINDEX - íĺđŕçđĺřŕĺň číäĺęńčđîâŕňü ýňó ńňđŕíčöó

FOLLOW - đŕçđĺřŕĺň číäĺęńčđîâŕňü âńĺ ńńűëęč čç ýňîé ńňđŕíčöű

NOFOLLOW - íĺđŕçđĺřŕĺň číäĺęńčđîâŕňü ńńűëęč čç ýňîé ńňđŕíčöű

…ńëč ýňîň ěĺňŕ-ňŕă ďđîďóůĺí čëč íĺ óęŕçŕíű robot_terms, ňî ďî óěîë÷ŕíčţ ďîčńęîâűé đîáîň ďîńňóďŕĺň ęŕę ĺńëč áű áűëč óęŕçŕíű robot_terms= INDEX, FOLLOW (ň.ĺ. ALL). …ńëč â CONTENT îáíŕđóćĺíî ęëţ÷ĺâîĺ ńëîâî ALL, ňî đîáîň ďîńňóďŕĺň ńîîňâĺňńňâĺííî, čăíîđčđóß âîçěîćíî óęŕçŕííűĺ äđóăčĺ ęëţ÷ĺâűĺ ńëîâŕ.. …ńëč â CONTENT čěĺţňńß ďđîňčâîďîëîćíűĺ ďî ńěűńëó ęëţ÷ĺâűĺ ńëîâŕ, íŕďđčěĺđ, FOLLOW, NOFOLLOW, ňî đîáîň ďîńňóďŕĺň ďî ńâîĺěó óńěîňđĺíčţ (â ýňîě ńëó÷ŕĺ FOLLOW).

…ńëč robot_terms ńîäĺđćčň ňîëüęî NOINDEX, ňî ńńűëęč ń ýňîé ńňđŕíčöű íĺ číäĺęńčđóţňńß. …ńëč robot_terms ńîäĺđćčň ňîëüęî NOFOLLOW, ňî ńňđŕíčöŕ číäĺęńčđóĺňńß, ŕ ńńűëęč, ńîîňâĺňńňâĺííî, čăíîđčđóţňńß.

KEYWORDS ěĺňŕ-ňŕă.

phrases - đŕçäĺëĺííűé çŕďßňűěč ńďčńîę ńëîâ čëč ńëîâîńî÷ĺňŕíčé (çŕăëŕâíűĺ č ńňđî÷íűĺ ńčěâîëű đîëč íĺ čăđŕţň), ęîňîđűĺ ďîěîăŕţň číäĺęńčđîâŕňü ńňđŕíčöó (ň.ĺ. îňđŕćŕţň ńîäĺđćŕíčĺ ńňđŕíčöű). đóáî ăîâîđß, ýňî ňĺ ńëîâŕ, â îňâĺň íŕ ęîňîđűĺ ďîčńęîâŕß ńčńňĺěŕ âűäŕńň ýňîň äîęóěĺíň.

DESCRIPTION ěĺňŕ-ňŕă.

text - ňîň ňĺęńň, ęîňîđűé áóäĺň âűâîäčňüńß â ńóěěŕđíîě îňâĺňĺ íŕ çŕďđîń ďîëüçîâŕňĺëß ę ďîčńęîâîé ńčńňĺěĺ. ‘ĺé ňĺęńň íĺ äîëćĺí ńîäĺđćŕňü ňŕăîâ đŕçěĺňęč č ëîăč÷íĺĺ âńĺăî âďčńŕňü â íĺăî ńěűńë äŕííîăî äîęóěĺíňŕ íŕ ďŕđó-ňđîéęó ńňđîę.

Źđĺäďîëŕăŕĺěűĺ âŕđčŕíňű čńęëţ÷ĺíčß ďîâňîđíűő ďîńĺůĺíčé ń ďîěîůüţ ěĺňŕ-ňŕăîâ HTML

Ťĺęîňîđűĺ ęîěěĺđ÷ĺńęčĺ ďîčńęîâűĺ đîáîňű óćĺ čńďîëüçóţň ěĺňŕ-ňŕăč, ďîçâîëßţůčĺ îńóůĺńňâëßňü "ńâßçü" ěĺćäó đîáîňîě č âĺáěŕńňĺđîě. Altavista čńďîëüçóĺň KEYWORDS ěĺňŕ-ňŕă, ŕ Infoseek čńďîëüçóĺň KEYWORDS č DESCRIPTION ěĺňŕ-ňŕăč.

íäĺęńčđîâŕňü äîęóěĺíň îäčí đŕç čëč äĺëŕňü ýňî đĺăóëßđíî?

‚ĺáěŕńňĺđ ěîćĺň "ńęŕçŕňü" ďîčńęîâîěó đîáîňó čëč ôŕéëó bookmark ďîëüçîâŕňĺëß, ÷ňî ńîäĺđćčěîĺ ňîăî čëč číîăî ôŕéëŕ áóäĺň čçěĺíßňüńß. ‚ ýňîě ńëó÷ŕĺ đîáîň íĺ áóäĺň ńîőđŕíßňü URL, ŕ áđîóçĺđ ďîëüçîâŕňĺëß âíĺńĺň čëč íĺ âíĺńĺň ýňî ôŕéë â bookmark. Źîęŕ ýňŕ číôîđěŕöčß îďčńűâŕĺňńß ňîëüęî â ôŕéëĺ /robots.txt, ďîëüçîâŕňĺëü íĺ áóäĺň çíŕňü î ňîě, ÷ňî ýňŕ ńňđŕíčöŕ áóäĺň čçěĺíßňüńß.

Śĺňŕ-ňŕă DOCUMENT-STATE ěîćĺň áűňü ďîëĺçĺí äëß ýňîăî. Źî óěîë÷ŕíčţ, ýňîň ěĺňŕ-ňŕă ďđčíčěŕĺňńß ń CONTENT=STATIC.

Šŕę čńęëţ÷čňü číäĺęńčđîâŕíčĺ ăĺíĺđčđóĺěűő ńňđŕíčö čëč äóáëčđîâŕíčĺ äîęóěĺíňîâ, ĺńëč ĺńňü çĺđęŕëŕ ńĺđâĺđŕ?

ĺíĺđčđóĺěűĺ ńňđŕíčöű - ńňđŕíčöű, ďîđîćäŕĺěűĺ äĺéńňâčĺě CGI-ńęđčďňîâ. ő íŕâĺđíßęŕ íĺ ńëĺäóĺň číäĺęńčđîâŕňü, ďîńęîëüęó ĺńëč ďîďđîáîâŕňü ďđîâŕëčňüńß â íčő čç ďîčńęîâîé ńčńňĺěű, áóäĺň âűäŕíŕ îřčáęŕ. —ňî ęŕńŕĺňńß çĺđęŕë, ňî íĺăîćĺ, ęîăäŕ âűäŕţňńß äâĺ đŕçíűĺ ńńűëęč íŕ đŕçíűĺ ńĺđâĺđŕ, íî ń îäíčě č ňĺě ćĺ ńîäĺđćčěűě. —ňîáű ýňîăî čçáĺćŕňü, ńëĺäóĺň čńďîëüçîâŕňü ěĺňŕ-ňŕă URL ń óęŕçŕíčĺě ŕáńîëţňíîăî URL ýňîăî äîęóěĺíňŕ (â ńëó÷ŕĺ çĺđęŕë - íŕ ńîîňâĺňńňâóţůóţ ńňđŕíčöó ăëŕâíîăî ńĺđâĺđŕ).

ńňî÷íčęč

Charles P.Kollar, John R.R. Leavitt, Michael Mauldin, Robot Exclusion Standard Revisited, www.kollar.com/robots.html
Martijn Koster, Standard for robot exclusion, info.webcrawler.com/mak/projects/robots/robots.html

‘ňŕíäŕđň čńęëţ÷ĺíčé äëß đîáîňîâ Standard for robot exclusion

Martijn Koster , ďĺđĺâîä €. €ëčęáĺđîâŕ

‘ňŕňóń ýňîăî äîęóěĺíňŕ
‚âĺäĺíčĺ
Ťŕçíŕ÷ĺíčĺ
”îđěŕň
Źđčěĺđű
Źđčěĺ÷ŕíčß ďĺđĺâîä÷čęŕ
€äđĺńŕ ŕâňîđîâ

‘ňŕňóń ýňîăî äîęóěĺíňŕ

ťňîň äîęóěĺíň ńîńňŕâëĺí 30 čţëß 1994 ăîäŕ ďî ěŕňĺđčŕëŕě îáńóćäĺíčé â ňĺëĺęîíôĺđĺíöčč robots-request@nexor.co.uk (ńĺé÷ŕń ęîíôĺđĺíöčß ďĺđĺíĺńĺíŕ íŕ WebCrawler. Źîäđîáíîńňč ńě. Robots pages at WebCrawler info.webcrawler.com/mak/projects/robots/) ěĺćäó áîëüřčíńňâîě ďđîčçâîäčňĺëĺé ďîčńęîâűő đîáîňîâ č äđóăčěč çŕčíňĺđĺńîâŕííűěč ëţäüěč.’ŕęćĺ ýňŕ ňĺěŕ îňęđűňŕ äëß îáńóćäĺíčß â ňĺëĺęîíôĺđĺíöčč Technical World Wide Web www-talk@info.cern.ch ‘ĺé äîęóěĺíň îńíîâŕí íŕ ďđĺäűäóůĺě đŕáî÷ĺě ďđîĺęňĺ ďîä ňŕęčě ćĺ íŕçâŕíčĺě.

ťňîň äîęóěĺíň íĺ ßâëßĺňńß îôčöčŕëüíűě čëč ÷üčě-ëčáî ęîđďîđŕňčâíűě ńňŕíäŕđňîě, č íĺ ăŕđŕíňčđóĺň ňîăî, ÷ňî âńĺ íűíĺříčĺ č áóäóůčĺ ďîčńęîâűĺ đîáîňű áóäóň čńďîëüçîâŕňü ĺăî. ‚ ńîîňâĺňńňâčč ń íčě áîëüřčíńňâî ďđîčçâîäčňĺëĺé đîáîňîâ ďđĺäëŕăŕĺň âîçěîćíîńňü çŕůčňčňü ‚ĺá-ńĺđâĺđű îň íĺćĺëŕňĺëüíîăî ďîńĺůĺíčß čő ďîčńęîâűěč đîáîňŕěč.

Źîńëĺäíţţ âĺđńčţ ýňîăî äîęóěĺíňŕ ěîćíî íŕéňč ďî ŕäđĺńó info.webcrawler.com/mak/projects/robots/robots.html

‚âĺäĺíčĺ

Źîčńęîâűĺ đîáîňű (wanderers, spiders) - ýňî ďđîăđŕěěű, ęîňîđűĺ číäĺęńčđóţň âĺá-ńňđŕíčöű â ńĺňč Internet.

‚ 1993 č 1994 ăîäŕő âűßńíčëîńü, ÷ňî číäĺęńčđîâŕíčĺ đîáîňŕěč ńĺđâĺđîâ ďîđîé ďđîčńőîäčň ďđîňčâ ćĺëŕíčß âëŕäĺëüöĺâ ýňčő ńĺđâĺđîâ. ‚ ÷ŕńňíîńňč, číîăäŕ đŕáîňŕ đîáîňîâ çŕňđóäíßĺň đŕáîňó ń ńĺđâĺđîě îáű÷íűő ďîëüçîâŕňĺëĺé, číîăäŕ îäíč č ňĺ ćĺ ôŕéëű číäĺęńčđóţňńß íĺńęîëüęî đŕç. ‚ äđóăčő ńëó÷ŕßő đîáîňű číäĺęńčđóţň íĺ ňî, ÷ňî íŕäî, íŕďđčěĺđ, î÷ĺíü "ăëóáîęčĺ" âčđňóŕëüíűĺ äčđĺęňîđčč, âđĺěĺííóţ číôîđěŕöčţ čëč CGI-ńęđčďňű. ťňîň ńňŕíäŕđň ďđčçâŕí đĺřčňü ďîäîáíűĺ ďđîáëĺěű.

Ťŕçíŕ÷ĺíčĺ

„ëß ňîăî, ÷ňîáű čńęëţ÷čňü ďîńĺůĺíčĺ ńĺđâĺđŕ čëč ĺăî ÷ŕńňĺé đîáîňîě íĺîáőîäčěî ńîçäŕňü íŕ ńĺđâĺđĺ ôŕéë, ńîäĺđćŕůčé číôîđěŕöčţ äëß óďđŕâëĺíčß ďîâĺäĺíčĺě ďîčńęîâîăî đîáîňŕ. ťňîň ôŕéë äîëćĺí áűňü äîńňóďĺí ďî ďđîňîęîëó HTTP ďî ëîęŕëüíîěó URL /robots.txt. ‘îäĺđćŕíčĺ ýňîăî ôŕéëŕ ńě. íčćĺ.

’ŕęîĺ đĺřĺíčĺ áűëî ďđčíßňî äëß ňîăî, ÷ňîáű ďîčńęîâűé đîáîň ěîă íŕéňč ďđŕâčëŕ, îďčńűâŕţůčĺ ňđĺáóĺěűĺ îň íĺăî äĺéńňâčß, âńĺăî ëčřü ďđîńňűě çŕďđîńîě îäíîăî ôŕéëŕ. Šđîěĺ ňîăî ôŕéë /robots.txt ëĺăęî ńîçäŕňü íŕ ëţáîě čç ńóůĺńňâóţůčő ‚ĺá-ńĺđâĺđîâ.

‚űáîđ čěĺííî ňŕęîăî URL ěîňčâčđîâŕí íĺńęîëüęčěč ęđčňĺđčßěč:

ěß ôŕéëŕ äîëćíî áűëî áűňü îäčíŕęîâűě äëß ëţáîé îďĺđŕöčîííîé ńčńňĺěű
ŕńřčđĺíčĺ äëß ýňîăî ôŕéëß íĺ äîëćíî áűëî ňđĺáîâŕňü ęŕęîé-ëčáî ďĺđĺęîíôčăóđŕöčč ńĺđâĺđŕ
ěß ôŕéëŕ äîëćíî áűëî áűňü ëĺăęî çŕďîěčíŕţůčěńß č îňđŕćŕňü ĺăî íŕçíŕ÷ĺíčĺ
‚ĺđîßňíîńňü ńîâďŕäĺíčß ń ńóůĺńňâóţůčěč ôŕéëŕěč äîëćíŕ áűëŕ áűňü ěčíčěŕëüíîé

”îđěŕň

”îđěŕň č ńĺěŕíňčęŕ ôŕéëŕ /robots.txt ńëĺäóţůčĺ:

”ŕéë äîëćĺí ńîäĺđćŕňü îäíó čëč íĺńęîëüęî çŕďčńĺé (records), đŕçäĺëĺííűő îäíîé čëč íĺńęîëüęčěč ďóńňűěč ńňđîęŕěč (îęŕí÷čâŕţůčěčńß CR, CR/NL čëč NL). Šŕćäŕß çŕďčńü äîëćíŕ ńîäĺđćŕňü ńňđîęč (lines) â ôîđěĺ:

"<field>:<optional_space><value><optional_space>".

Źîëĺ <field> ßâëßĺňńß đĺăčńňđîíĺçŕâčńčěűě.

Šîěěĺíňŕđčč ěîăóň áűňü âęëţ÷ĺíű â ôŕéë â îáű÷íîé äëß UNIX ôîđěĺ: ńčěâîë # îçíŕ÷ŕĺň íŕ÷ŕëî ęîěěĺíňŕđčß, ęîíĺö ńňđîęč - ęîíĺö ęîěěĺíňŕđčß.

‡ŕďčńü äîëćíŕ íŕ÷číŕňüńß ń îäíîé čëč íĺńęîëüęčő ńňđîę User-Agent, ńëĺäîě äîëćíŕ áűňü îäíŕ čëč íĺńęîëüęî ńňđîę Disallow, ôîđěŕň ęîňîđűő ďđčâĺäĺí íčćĺ. Ťĺđŕńďîçíŕííűĺ ńňđîęč čăíîđčđóţňńß.

User-Agent

çíŕ÷ĺíčĺě <value> ýňîăî ďîëß äîëćíî ßâëßňüńß čěß ďîčńęîâîăî đîáîňŕ, ęîňîđîěó â ýňîé çŕďčńč óńňŕíŕâëčâŕţňńß ďđŕâŕ äîńňóďŕ.
ĺńëč â çŕďčńč óęŕçŕíî áîëĺĺ îäíîăî čěĺíč đîáîňŕ, ňî ďđŕâŕ äîńňóďŕ đŕńďđîńňđŕíßţňńß äëß âńĺő óęŕçŕííűő čěĺí.
çŕăëŕâíűĺ čëč ńňđî÷íűĺ ńčěâîëű đîëč íĺ čăđŕţň
ĺńëč â ęŕ÷ĺńňâĺ çíŕ÷