{"id":5057,"date":"2017-01-18T09:58:55","date_gmt":"2017-01-18T09:58:55","guid":{"rendered":"https:\/\/www.im.education\/blog\/?p=5057"},"modified":"2021-07-14T06:44:33","modified_gmt":"2021-07-14T06:44:33","slug":"que-es-archivo-robots-txt","status":"publish","type":"post","link":"https:\/\/www.im.education\/blog\/que-es-archivo-robots-txt\/","title":{"rendered":"Qu\u00e9 es y para qu\u00e9 sirve el archivo Robots.txt"},"content":{"rendered":"
Cuando hablamos de SEO<\/a> una de las cosas m\u00e1s importantes que se nos viene a la cabeza y algo imprescindible es generar el archivo Robots.txt.<\/strong> Antes que nada hemos de estar seguros de lo que hacemos, de lo contrario podemos denegar el acceso a todo tipo de Robots que intenten llegar a nuestra web, lo que har\u00eda que todo nuestro trabajo SEO no sirviera para nada.<\/p>\n El archivo Robots.txt es un archivo que se coloca en la ra\u00edz de nuestro sitio web<\/strong> y es el que le indica a los bots (ara\u00f1as) qu\u00e9 partes de nuestra web debe rastrear y a qu\u00e9 partes le denegamos el acceso.<\/strong> Los bots suelen hacer caso a estas indicaciones aunque hay otros que las ignoran. Tambi\u00e9n podremos elegir qu\u00e9 bots queremos que rastren nuestro sitio y cu\u00e1les no. (Os ense\u00f1ar\u00e9 c\u00f3mo hacerlo m\u00e1s adelante)<\/p>\n Una de las grandes utilidades de nuestro archivo Robots.txt es que le podemos indicar d\u00f3nde se encuentran los sitemaps de nuestra web<\/strong>, as\u00ed que adem\u00e1s de subirlo a trav\u00e9s de Search Console podemos facilitarle la vida a los bots\/ara\u00f1as de los motores de b\u00fasqueda e inclu\u00edrselo. Adem\u00e1s, gracias a este archivo podremos bloquearle a los bots el acceso a zonas de nuestra web que por alg\u00fan motivo no queremos indexarlas.<\/strong><\/p>\n En conclusi\u00f3n, sirve para tener un control \u201cabsoluto\u201d de la informaci\u00f3n que queremos que sea indexada y la que no.<\/strong> Y lo digo entre comillas ya que como antes he mencionado, hay bots que ni se miran el archivo Robots.txt y lo \u00fanico que hacen es seguir los enlaces que encuentren hacia nuestro sitio web.<\/p>\n – User-agent:<\/strong>\u00a0Aqu\u00ed indicaremos qu\u00e9 bots queremos que rastren nuestra web y cu\u00e1les no. Si quieres bloquear el acceso a todos los bots: Si quieres bloquear el acceso solo, por ejemplo, al bot de Google: Si quieres bloquear el acceso a la ara\u00f1a de Google pero solo a una parte de la web determinada: Siguiendo con el ejemplo de antes pero adem\u00e1s bloqueando el acceso a las subp\u00e1ginas de esa URL, utilizaremos el comod\u00edn * Y para indicar la direcci\u00f3n de nuestro sitemap utilizaremos: Para finalizar el breve, pero espero que productivo post, os dejo un ejemplo bastante curioso para que vosotros mismo descifr\u00e9is qu\u00e9 pretenden conseguir\u2026<\/p>\n https:\/\/www.casareal.es\/robots.txt \u00bfQu\u00e9 opin\u00e1is?<\/p>\n Cuando hablamos de SEO una de las cosas m\u00e1s importantes que se nos viene a la cabeza y algo imprescindible es generar el archivo Robots.txt. Antes que nada hemos de estar seguros de lo que hacemos, de lo contrario podemos denegar el acceso a todo tipo de Robots que intenten llegar a nuestra web, lo … Leer m\u00e1s<\/a><\/p>\n","protected":false},"author":6,"featured_media":5061,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[4],"tags":[],"class_list":["post-5057","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-marketing-de-actualidad"],"yoast_head":"\n\u00bfQu\u00e9 es?<\/h2>\n
\u00bfPara qu\u00e9 sirve?<\/h2>\n
Algunos de los par\u00e1metros m\u00e1s utilizados:<\/h3>\n
\n– Disallow:<\/strong> Podemos especificar una barra \/ para bloquear el acceso a todo el sitio o indicar la ruta que queremos bloquear.
\n– Allow:<\/strong> Sirve para permitir el acceso, es \u00fatil cuando queremos a\u00f1adir ciertas exclusiones a un disallow, es decir, para hacer excepciones de lo dicho anteriormente.
\n– Sitemap:<\/strong> Indicaremos en que URL se encuentra nuestro sitemap, incluso podemos poner varios en caso tengamos uno de im\u00e1genes.
\n– Crawl-delay:<\/strong> Podremos especificar un n\u00famero de segundos de espera entre cada p\u00e1gina revisada por el bot.<\/p>\nAlgunos ejemplos:<\/h3>\n
\nUser-Agent: *
\nDisallow: \/<\/p>\n
\nUser-agent: Googlebot
\nDisallow: \/<\/p>\n
\nUser-agent: Googlebot
\nDisallow: \/nopermitiracceso\/<\/p>\n
\nUser-agent: Googlebot
\nDisallow: \/nopermitiracceso\/*<\/p>\n
\nSitemap: https:\/\/www.mipaginaweb.com\/sitemap.xml<\/p>\n
\nY el Robots.txt que veremos ser\u00e1 el siguiente:
\nUser-agent: *
\nDisallow:
\nDisallow: \/_*\/
\nDisallow: \/ES\/FamiliaReal\/Urdangarin\/
\nDisallow: \/CA\/FamiliaReal\/Urdangarin\/
\nDisallow: \/EU\/FamiliaReal\/Urdangarin\/
\nDisallow: \/GL\/FamiliaReal\/Urdangarin\/
\nDisallow: \/VA\/FamiliaReal\/Urdangarin\/
\nDisallow: \/EN\/FamiliaReal\/Urdangarin\/
\nSitemap: https:\/\/www.casareal.es\/sitemap.xml<\/p>\n
\n","protected":false},"excerpt":{"rendered":"