¿Cómo solucionar errores de rastreo en las herramientas para webmasters de Google? | Weboptim
En los últimos años han cambiado muchas cosas en las Herramientas para webmasters de Google. Las secciones Estadísticas de búsqueda y Enlaces a su sitio son las dos mejores innovaciones hasta la fecha.
Sección de errores cartográficos
Las herramientas para webmasters pueden dividirse en 2 partes principales: errores del sitio web y errores de URL.
La clasificación de los errores en estos dos grupos es muy útil, ya que existe una clara diferencia entre los errores a nivel de sitio web y a nivel de subpágina.
- Los errores a nivel de sitio web son más graves, ya que pueden arruinar la usabilidad de todo el sitio.
- Los errores de URL están relacionados con una subpágina y, por tanto, son problemas menos urgentes.
La página de inicio de WMT ofrece una visión general rápida de nuestro sitio, con 3 herramientas importantes: Errores de rastreo, Estadísticas de búsqueda, Mapas del sitio.

Se puede acceder fácilmente a los errores de mapeo en la interfaz de las Herramientas para webmasters de Google.
1. Errores del sitio web
La sección Errores del sitio web muestra los errores de todo el sitio web. Estos son los errores de más alto nivel y nunca deben ser ignorados. La página muestra los datos de los últimos 90 días.
Si ha habido alguna actividad en los últimos 90 días, puede verla aquí:

Si el sitio ha estado libre de errores en 100% durante los últimos 90 días, entonces esto:

¿Con qué frecuencia comprobamos estos errores del sitio?
Lo ideal sería comprobar todos los días si hay algún problema. Es un trabajo muy monótono porque la mayoría de los días no cambia nada, pero ¿y si no lo comprobamos y pasamos por alto errores críticos?
Compruebe si hay errores anteriores al menos cada 90 días. Esta sección es crítica y se requiere 100% libre de errores todos los días.
A, Errores en el ADN
¿Qué significa?
Los errores de DNS son importantes. Los primeros y más importantes errores, porque si Googlebot encuentra un error DNS, significa que Google no puede conectarse al dominio a través del servidor DNS.
¿Por qué es importante?
Si se detecta un problema grave de ADN, hay que actuar de inmediato. El ADN es muy importante, ya que es el primer paso para acceder al sitio. Debemos tomar medidas decisivas si vemos un error de DNS.
¿Cómo solucionarlo?
1. En primer lugar, Google recomienda un Ver como Google donde puede ver cómo Googlebot está mapeando su sitio.
2. Si sólo desea comprobar el estado del ADN, utilice el botón Obtenido de seleccione la opción. A Solicitar y mostrar es un proceso algo más lento, pero resulta útil cuando quieres comparar cómo ve Google tu página en relación con los usuarios.
3. Compruebe su proveedor de DNS. Si Google no puede recuperar la página, es necesario seguir otros pasos.
4. Asegúrese de que el servidor muestra los códigos de error 404 y 500. En lugar de mostrar una conexión fallida, debería mostrar 404 (no encontrado) o 500 (error del servidor).

B, Errores del servidor
¿Qué significa?
Un error del servidor suele significar que el tiempo de respuesta del servidor es demasiado largo y que la solicitud ha superado el tiempo permitido. Cuando Googlebot intenta rastrear la página, sólo esperará un determinado tiempo de carga antes de detenerse. Si el tiempo de carga es demasiado largo, se detendrá.
Los errores de servidor son diferentes de los errores de DNS. DNS significa que Googlebot no puede ver la URL debido a un problema de DNS, mientras que los errores de servidor significan que Google puede conectarse a la página pero no puede cargarla debido a un error del servidor.
Los errores del servidor pueden producirse cuando nuestro sitio recibe demasiadas visitas y el servidor no puede soportar el aumento de tráfico.
¿Por qué es importante?
Al igual que los errores de DNS, los errores de servidor también se resuelven a toda prisa. Se trata de un error básico y tiene un efecto perjudicial en todo el sitio web.
¿Cómo solucionarlo?
En primer lugar, asegúrese de que Googlebot puede conectarse a su DNS.
En caso de que el sitio web esté funcionando bien y experimente este error, podría significar que ha habido errores del servidor en el pasado. Aunque este error ya se haya resuelto, hay que hacer cambios para que no vuelva a ocurrir.
Guía oficial de Google para resolver errores del servidor:
Utilice la herramienta Ver como Google para ver cómo Googlebot rastrea la página. Si consultamos una página y Google muestra la página principal sin problemas, podemos suponer que Google es capaz de acceder a la página correctamente.
Los errores del servidor pueden tener varias causas/tipos: tiempo de espera, cabeceras truncadas, recuperación de conexión, conexión denegada, conexión fallida, tiempo de espera de conexión, sin respuesta. Para solucionar cada error, utiliza la Ayuda de las Herramientas para webmasters de Google: https://support.google.com/webmasters/answer/35120?hl=en
C, Solicitud de robots.txt fallida
Una solicitud de robots.txt fallida significa que Googlebot no puede recuperar el archivo robots.txt del sitio web, que se encuentra en la URL [sudominio.es]/robots.txt.
¿Qué significa?
Una de las cosas más sorprendentes del archivo robots.txt es que sólo lo necesitas si quieres que Google no mapee determinadas páginas (por ejemplo, las páginas de administración).
¿Por qué es importante?
Es una pregunta muy importante. Para sitios web más pequeños y estáticos, con pocos cambios o páginas nuevas, no es tan importante. Pero, por supuesto, merece la pena mejorarlo.
Pero si su sitio cambia de contenido con frecuencia, es una tarea inmediata solucionar el problema. Si Googlebot no puede descargar el archivo robots.txt, no podrá rastrear la página y, por tanto, las páginas nuevas o los cambios no se indexarán.
¿Cómo solucionarlo?
Asegúrese de que el archivo robots.txt está configurado correctamente.
Compruebe qué páginas no desea que sean rastreadas.
Compruebe tres veces la línea más importante „disallow:/” y asegúrese de que no existe, a menos que por alguna razón no desee que el sitio web aparezca en los resultados de búsqueda.
Si el archivo tiene buen aspecto, pero sigue mostrando errores, utilice el comprobador de código HTML para ver si devuelve 200 o 400 códigos HTML.
Es mejor no tener ningún archivo robots.txt que tener uno que no esté configurado correctamente. De lo contrario, Google rastreará como de costumbre. Si hay uno y está dañado, dejará de rastrear hasta que se repare el archivo.
2. Errores de URL
Los errores de URL son muy diferentes de los errores de sitio web porque sólo afectan a páginas individuales dentro de un sitio web, no a todo el sitio en sí.
Las Herramientas para webmasters de Google muestran los principales errores de URL por categoría: escritorio, smartphone. Para los sitios más grandes esta lista probablemente no es suficiente para identificar todos los errores, pero para la mayoría de los sitios puede identificar todos los problemas.

¿Vemos demasiados errores? ¡Márquelos como corregidos!
Muchos propietarios de sitios web se horrorizan ante el número de errores de URL. Lo más importante que hay que recordar es
- a, Google sólo muestra los errores más importantes
- b, algunas de ellas ya se han resuelto
Si ha realizado cambios drásticos en el sitio para corregir errores, o cree que ya no existen muchos errores de URL, seleccione Marcar como corregido y vuelva a comprobarlo en unos días.

Si lo hace, los errores desaparecerán de la tabla y, si no se han corregido, Google volverá a mostrarlos la próxima vez que rastree. Si efectivamente hemos corregido los errores, no volverán a aparecer. Si los errores siguen existiendo, sabremos que están afectando a nuestro sitio.
A, soft 404
Un error soft 404 significa que la subpágina devuelve códigos de respuesta 200 (ok) en lugar de 404 (no encontrado).

¿Qué significa?
Que tu página 404 parezca una página 404 no significa que lo sea. La página 404 que ve un usuario es un contenido. El mensaje visible les hace saber que la página ya no existe. A menudo, los propietarios de sitios web ponen enlaces útiles o imágenes divertidas en la página 404.
El objetivo de una página 404 es la respuesta que se ve cuando se rastrea. El código de respuesta HTTP de la cabecera debe ser 404 (no encontrado) o 410 (desaparecido).
Si se devuelve la página de error 404 y aparece como error 404 blando, significa que el código de respuesta no es 404.
Otra situación en la que puede producirse un error 404 es cuando una redirección 301 apunta a páginas que no están relacionadas, como la página principal.
Posición oficial de Google:
Para una página que no existe (o que está siendo redirigida a la página principal), un código HTML distinto de 404 o 410 puede ser problemático.
Da algunas directrices, pero no está del todo claro cuándo es apropiado redirigir la página caducada a la página principal y cuándo no lo es. En la práctica, si redirige muchas páginas a la página principal, Google puede interpretar las URL redirigidas como errores 404 suaves en lugar de verdaderas redirecciones 301.
Por lo tanto, si la página antigua se redirige a una página relacionada en su lugar, es poco probable que se plantee como un error 404 suave.
¿Por qué es importante?
Si la lista de errores soft 404 no contiene páginas críticas, no es una tarea inmediata arreglarlas. Si las páginas críticas aparecen en la lista de errores soft 404, entonces es necesario actuar con rapidez.
¿Cómo solucionarlo?
Para los sitios ya no existen:
- Utilice un código 404 o 410 si la página ya no existe y no recibe tráfico o enlaces significativos. Asegúrate de que el código de respuesta del servidor es 404 o 410, no 200.
- Los redireccionamientos 301 se utilizan para redirigir páginas antiguas a páginas nuevas relevantes.
- No dirija un gran número de páginas muertas a la página principal.
Para los sitios personas que viven y no debería dar un error 404 soft:
- Asegúrese de tener la cantidad adecuada de contenido en la página, ya que demasiado poco contenido puede parecer un error 404 suave.
- Asegúrese de que el contenido de la página no parezca una página 404.
El soft 404 es un error extraño. Puede causar mucha confusión porque es un híbrido entre una página 404 y una página normal y, por lo tanto, no siempre se puede identificar claramente. La clave está en asegurarse de que las páginas más importantes no sean errores 404 blandos.
B, Error 404
Un 404 significa que Googlebot está intentando rastrear una página que no existe. También muestra un error 404 si otro sitio web o subpágina enlaza a una página que no existe.

¿Qué significa?
La política de Google dice:
En general, los errores 404 no afectan a la clasificación de un sitio web en Google, por lo que puede ignorarlos.
Esto está bien, pero si las páginas críticas dan errores 404, no podemos ignorarlas.
Hay una diferencia entre ignorar el problema y quedarse en la oficina hasta altas horas de la noche para solucionarlo.
Un consejo eterno:
Si se encuentra con un error 404, a menos que la página:
a, muchos enlaces importantes de fuentes externas
b, recibe una cantidad significativa de tráfico
c, tiene una URL obvia a la que los visitantes pueden acceder fácilmente,
Dejémoslo en 404.
La parte más difícil del trabajo es decidir qué se considera un enlace externo importante y una cantidad significativa de tráfico para una URL determinada.
¿Por qué es importante?
Este es quizás uno de los problemas más complicados y sencillos que pueden surgir. El enorme número de URL 404 en sitios medianos y grandes es suficiente elemento disuasorio.
Exigen una solución inmediata cuando las páginas importantes dan un código de error 404. Como ha dicho Google, si la página lleva mucho tiempo inactiva y no cumple los criterios anteriores, déjela como está. Por muy doloroso que sea ver cientos de errores en las Herramientas para webmasters de Google, simplemente ignórelos.
¿Cómo solucionarlo?
Si tu página importante está mostrando un error 404 y no quieres dejarla así, haz lo siguiente:
- Asegúrese de que la página está publicada y no guardada como borrador.
- Asegúrese de que la URL 404 es la página correcta y no una variación.
- Compruebe si el error es visible en la versión www o no www, http o https.
- Si no desea revivir la página, sino redirigirla a otro lugar, asegúrese de redirigirla a la página más relevante.
En resumen, si su sitio está muerto, hágalo vivo de nuevo. Si no quieres revivirlo, haz 301 a una buena página.
¿Cómo evitar que aparezcan páginas 404 antiguas en el informe de errores de rastreo?
Si ya no necesitas la página de error 404, Google recomienda que la ignores. Pero para evitar que vuelva a aparecer en el informe de errores de rastreo, hay algunas cosas que puede hacer.
Google muestra los errores 404 en primer lugar si hay un enlace desde dentro de la página o desde un sitio web externo. En otras palabras, si escribes una URL, no aparecerá en los errores de rastreo a menos que obtengas un enlace desde algún sitio.
Para averiguar desde dónde está enlazada la página defectuosa, haz clic en la URL. A continuación, busca el enlace en el código fuente de la página y arréglalo.

Es un trabajo tedioso, pero si quieres evitar que la página 404 aparezca en el informe, tienes que eliminar el enlace roto de todas las páginas. Incluso de los sitios web externos.
Si recibe un enlace desde el mapa del sitio antiguo, debe eliminarlo también de allí. No los redirija al nuevo mapa del sitio.
C, Acceso denegado
Acceso denegado significa que Googlebot no puede rastrear la página.
¿Qué significa?
Los errores de acceso denegado suelen bloquear Googlebot en los siguientes casos:
- Tenemos que pedir a los usuarios que inicien sesión en el sitio para ver la URL porque Googlebot la bloquea.
- El archivo robots.txt bloquea Googlebot, incluyendo URLs individuales, una carpeta o incluso todo el sitio web.
- El proveedor de alojamiento bloquea Googlebot o el servidor solicita la autenticación de los usuarios mediante proxy.
¿Por qué es importante?
De forma similar a los errores soft 404 y 404, si es importante que una página bloqueada sea rastreada e indexada, debemos actuar de inmediato.
Si no desea que la página sea rastreada e indexada, puede simplemente ignorarla.
¿Cómo solucionarlo?
Para solucionar los errores de acceso denegado, debemos eliminar los elementos que bloquean el acceso de Googlebot:
- Elimine el check-in de las páginas que desea que Google rastree, ya sea una página interna o una ventana emergente.
- Comprobamos robots.txt, sabemos que las páginas que están en él significan que serán bloqueadas.
- Utilizamos el comprobador de robots.txt para ver si hay errores en él y para comprobar URL específicas.
- Utilice la herramienta Ver como Google para averiguar cómo aparece su sitio en Google.
Aunque no es tan común como un error 404, un error de acceso denegado puede dañar la clasificación de su sitio si se bloquean las páginas equivocadas.
D, No seguido
¿Qué significa?
No confundir con el atributo de enlace „nofollow”, un error "not followed" significa que Google no puede seguir la URL. La mayoría de estos errores están causados por Flash, contenido Javascript o redireccionamientos.
¿Por qué es importante?
Si se encuentra con un problema no seguido con una URL de alta prioridad, entonces sí, es importante.
Si el error procede de URL antiguas que ya no están activas, o algunos de sus parámetros no están indexados y son sólo una opción extra, entonces la prioridad es baja, pero aun así deben analizarse.
¿Cómo solucionarlo?
Google y otros motores de búsqueda han identificado varios elementos que pueden impedir el rastreo: JavaScript, cookies, ID único, marcos, DHTML, contenido Flash...
Utilizamos el Solicitar y mostrar para ver lo que ve Google. Si nosotros, como Google, no podemos ver la página o nos falta contenido importante debido a una de las tecnologías anteriores, hay un error. Al fin y al cabo, sin contenido y enlaces visibles, no se puede rastrear la URL.
Si hay un problema de parámetros, comprobemos cómo gestiona Google nuestros parámetros.
Las páginas no seguidas son similares a las redirecciones, tenga en cuenta lo siguiente:
- Comprueba las cadenas de redirección.
- Si es posible, actualice la estructura de la página para que todas las subpáginas sean accesibles desde una página estática.
- El mapa del sitio no debe incluir la URL redirigida, salvo la URL de destino.
E, Errores de servidor y DNS
En Errores de URL, Google enumera de nuevo los errores de servidor y DNS, al igual que hace con los errores de sitio web.
La posición de Google es que deben tratarse del mismo modo que los errores de DNS y de servidor a nivel de sitio.
Si tiene una configuración separada para las URL personalizadas, como los minisitios, o utiliza una configuración diferente para determinadas URL dentro de su dominio, es posible que aparezcan aquí.
Resumen de errores cartográficos

Conclusión
Nadie quiere revisar y corregir uno por uno errores de URL aparentemente insignificantes o, por el contrario, entrar en pánico cuando ven miles de errores en las herramientas para webmasters de Google.
Con la experiencia y la repetición, podemos aprender a reaccionar ante los errores: cuáles son importantes y cuáles podemos ignorar sin peligro.
La corrección de errores no sólo puede ayudar a mejorar su posicionamiento en las búsquedas, sino que también puede proporcionar una mejor experiencia de usuario a los visitantes y ayudarle a alcanzar sus objetivos empresariales con mayor rapidez.
Fuente: moz.com