Web Spam

December 8th, 2004

El spam en páginas web, bien sea de comentarios, de referers, de posts en foros o de cualquier otro tipo es una de las inconveniencias modernas que no debería existir.

El objetivo de los spamers no es poner sus productos y mensajes en mi blog para que mis visitantes los lean. Eso es demasiado trabajo, cuando es mucho mas simple enviar un millón de emails.

El objetivo es hacer que Google crea que yo decidí colocar en mi sitio web un link al servidor del spammer. Como Google tiende a darle un buen ranking a los blogs, colocar links los comentarios de unos 20 o 30 blogs puede tener efectos significativos en el Page Rank del spammer.

Lo que me parece impresionante es que Google no haya ofrecido una solución al problema, pues al menos en mi mente la respuesta es muy simple: indicarle al buscador que ciertas partes de la página no deben ser indexadas.

Los buscadores siempre han tenido mecanismos para restringir las páginas a ser indexadas pero solo se puede excluir o incluir una página completa.

Si quiero permitirle a Google indexar mis posts, entonces debo permitirle tambien indexar los comentarios. Así que si le permito a otras personas colocar contenido en mis páginas, no tengo manera de decirle a Google que no estoy respaldando ese contenido con mi PageRank.

La solucion seria algo tan simple como una pseudoclase de estilo, algo como “DoNotIndex”. Esto permitiria utilizarla en cualquier documento HTML sin romper la validación. El contenido del tag que incluya esa pseudoclase sería ignorado por los buscadores.

Incluso podrían ofecer un poco más de control, permitiendo indicar que el texto debe ser indexado, pero que los links no deben ser tomados en cuenta para pageranks.

Una herramienta así cortaría de raiz el problema. Los desarrolladores podrían crear plantillas y diseños que incluyan contenido generado por los visitantes sin temer las consecuencias.

La solución parece tan trivial que me sorprende que Google o algún otro buscador no la haya propuesto aún.

En todo caso, la describo aquí para que cuando alguién termine de darse cuenta, yo pueda decir que la idea fue mia.

9 Respuestas a “Web Spam”

  1. Makel dijo:
    Yo busco por esto Video slots en http://www.streetslots.com Pero no he podido hallarlo
  2. xiamgod dijo:
    no estoy hablando de Caribe, estoy hablando del huracan, de nuevo lo mismo del año pasado, con la excepcion de que aca no hay protectores, tengo que poner maderas en las ventanas de la casa. Entre todo lo malo, lo bueno es que el ojo no pasara por aca, solo nos tocaran las bandas, pero que aun asi el clima va a estar bastante rebelde.
  3. afrael dijo:
    Pana si Amazon logro patentar Amazon One-Click, quizas te deberias animar un dia de estos a patentar alguna de tus ideas. http://www.uspto.gov/ ;-)
  4. superporcel dijo:
    Estaria bien esta solucion, aunque no soluciona nada que sigan haciendo spam en los blogs. Yo ayer tuve un ataque y es un coñazo, menos mal que no se me colo ninguno, pero me quede en 25 comentarios :(.
  5. Juanjo Navarro dijo:
    Lo malo es que ya existe "arte previo". En el buscador ht://Dig se puede utilizar exactamente ese esquema para evitar que se indexen determinados trozos de la página, mediante los tags: <!--htdig_noindex--> Un saludo.
  6. tintachina dijo:
    Pero yo quiero que se indexen también los comentarios, poder buscar algo que alguien dijo... ¡voto por la segunda solución!
  7. Alejandra dijo:
    Sencillamente odio el spam.
  8. El Angel Negro dijo:
    Hola Sebastian, El problema está no en la facilidad de colocar un estilo, sino de crear un estándar que sea seguido por todos; Imaginate que cada buscador en Internet te obligue a utilizar un tipo de etiqueta especial para no indexar las páginas (como existe para decirle a Google que no ponga un documento en su caché). Otro problema es lo pobre que muchos documentos están escritos o cuando no es fáctible 'envenenar' cada una de las páginas por razones de eficiencia o tiempo. Por otro lado Google es el gigante de los buscadores y los líderes de mercado son quienes hacen las reglas (recuerdas las extensiones a HTML y JavaScript hechas por Netscape un par de años atrás), así que seguro ya vendrán con algo. Muy bueno tu Blog, me gustaría ver más cosas de programación por aquí (Java, bases de datos, Linux), aunque no sé si ese es tu rin :) El Angel Negro - http://elangelnegro.blogspot.com
  9. Topocho dijo:
    Lo de la pseudo clase no me cuadra ¿No es mezclar la presentación con el contenido, o metadata sobre el contenido? De establecerse un mecanismo para generar dicho efectos podrías generar otro conjunto de aberraciones, por ejemplo enmascarar contenido pornográfico (po decir algo) que el search engine omita, y conduzca a la gente hacia una "trampa", creyendo que la página es "otra cosa". Por cierto, coincido con tintachina en que los comentarios son parte del contenido :-)

Deja tu respuesta

If you can read this, you don't use a typical webbrowser that plays nice with CSS.
Please do not fill in anything here!