多语言展示
当前在线:1934今日阅读:155今日分享:35

怎样制作网站Robots.txt文件

怎样制作网站Robots.txt文件?
方法/步骤
1

一、什么是Robots文件。Robots.txt文件是我们用来规范搜索引擎蜘蛛在索引网站时的索引范围,可以防止搜索引擎索引我们网站的私密文件。注意事项:1) 必须放在根目录下。2) 文件名必须全部小写。3) 如果允许全部抓取,也需要建立一个空的Robots.txt文件。4) Robots.txt禁止的文件仍然有可能出现在搜索结果中。如需完全禁止需要用Meta Robots属性。5) Robots只是一种规则,需要搜索引擎的配合。如若搜索引擎不遵守则无意义。

3

三、robots.txt文件具体写法。robots.txt文件包含2个域,“User-agent:”和“Disallow:”,每条指令独立一行。(1)User-agent:指定允许哪些蜘蛛抓取,如果给出参数,则只有指定的蜘蛛能够抓取;如值为通配符“*”号,代表允许所有蜘蛛抓取。如:User-agent: Googlebot只允许Google的蜘蛛抓取;User-agent: *允许所有蜘蛛抓取。注意:User-agent必须出现在第一行(有意义的行,注释除外),首先声明用户代理。(2)Disallow:指定禁止蜘蛛抓取的目录或文件,如:Disallow: /help.php禁止抓取根目录下help.php文件;Disallow: /admin/禁止抓取根目录下的admin子目录中任何内容;Disallow:值为空时,表示不限制,蜘蛛可以抓取站内任何内容。如果需要指定多个目录或文件,可以用多个“Disallow: 文件或目录名”来指定,但必须每一项单独一行(例如google的robots.txt就很夸张)。

4

四、Robots.txt文件的具体实例用法。例1. 禁止所有搜索引擎访问网站的任何部分User-agent: *    Disallow: /例2. 允许所有的robot访问网站的任何部分User-agent: *     Disallow:例3. 仅禁止Baiduspider访问您的网站User-agent: Baiduspider  Disallow: /例4. 仅允许Baiduspider访问您的网站User-agent: www.gzlij.com Disallow:    User-agent: *    Disallow: /例5. 禁止spider访问特定目录User-agent: *    Disallow: /cgi-bin/ Disallow: /tmp/    Disallow: /data/END

推荐信息