Arañas Web (Crawlers)

Definición de araña Web (crawler)

Como ya se mencionó en la introducción, una araña Web (crawler) es un pequeño software, un pequeño programa que recorre el entremado de páginas Web de Internet de forma automática y sistemática.

Una araña Web (crawler) es un tipo especializado de webbot - robot de la Web - que se encaga de llevar a cabo un tipo concreto de tareas. En particular, se encarga de recorrer las páginas Web de Internet, descargarlas al ordenador local, parsearlas y procesarlas.

Las arañas Web (crawlers), como cualquier otro tipo de software, pueden ser utilizadas con fines diversos, aunque el uso más conocido es el de agente software en los motores de búsqueda, donde su función básica es proporcionar al indizador el contenido apropiado para ser indizado. Algunas arañas Web (crawlers) de este tipo son Googlebot o Yahoo slurp, las arañas Web (crawlers) de Google y Yahoo, respectivamente.

Es importante mencionar que también existen arañas Web (crawlers) con fines ilegales: spambots. Estos programas tienen un propósito malicioso y suelen recurrir a técnicas maliciosas como la falsificación de identidad para lograr sus objetivos.

Una vez sabemos qué es una araña Web (crawler), estamos preparados para saber cuál es el funcionamiento de una araña web (crawler).