viernes, 3 de junio de 2011

Cómo rastreadores Web trabajo




¿Cómo rastreadores Web trabajo

Contar palabras:
416

Resumen:
Un rastreador web (también conocido como araña o robot web) es un programa o script automatizado que navega por Internet buscando
páginas web para procesar.

Muchas aplicaciones sobre todo los motores de búsqueda, sitios web de rastreo todos los días con el fin de encontrar hasta a datos
actualizados.
La mayoría de los rastreadores web, guardar una copia de la página visitada por lo que fácilmente podría índice más tarde y el resto
el rastreo de las páginas para la búsqueda página sólo como la búsqueda de mensajes de correo electrónico (por SPAM).

¿Cómo funciona?

Un Crawle ...


Palabras clave:
código, el código fuente, web, internet, html, xml, html al convertidor de XML, rastreador web, araña


Cuerpo del artículo:
Un rastreador web (también conocido como araña o robot web) es un programa o script automatizado que navega por Internet buscando
páginas web para procesar.

Muchas aplicaciones sobre todo los motores de búsqueda, sitios web de rastreo todos los días con el fin de encontrar hasta a datos
actualizados.
La mayoría de los rastreadores web, guardar una copia de la página visitada por lo que fácilmente podría índice más tarde y el resto
el rastreo de las páginas para la búsqueda página sólo como la búsqueda de mensajes de correo electrónico (por SPAM).

¿Cómo funciona?

Un rastreador necesita un punto de partida que sería una dirección web, una dirección URL.

Con el fin de navegar por la Internet que utilizan el protocolo HTTP de la red que nos permite hablar a los servidores web y
descargar o cargar datos desde y hacia él.

El rastreador examina esta dirección URL y luego busca los hipervínculos (una etiqueta en el lenguaje HTML).

A continuación, el rastreador navega esos vínculos y se mueve en la misma forma.

Hasta aquí es la idea básica. Ahora, ¿cómo nos movemos en él por completo depende de la finalidad del software en sí.

Si sólo queremos tomar mensajes de correo electrónico entonces podríamos buscar el texto en cada página web (incluyendo
hipervínculos) y buscar direcciones de correo electrónico. Este es el tipo más fácil de software para el desarrollo.

Los motores de búsqueda son mucho más difíciles de desarrollar.

Cuando se construye un motor de búsqueda que tenemos que cuidar de algunas otras cosas.

1. Tamaño - Algunos sitios web son muy grandes y contienen muchos directorios y archivos. Se puede consumir mucho tiempo de cosecha
todos los datos.

2. Cambio de frecuencia - Un sitio web puede cambiar muy a menudo, incluso varias veces al día. Las páginas pueden ser suprimidos y
agregados cada día. Tenemos que decidir cuándo volver a visitar cada sitio y cada página por página.

3. ¿Cómo procesar la salida HTML? Si construimos un motor de búsqueda que se quiere entender el texto en lugar de tratarlo como
texto sin formato. Debemos decir la diferencia entre un título y una frase simple. Debemos buscar el texto en negrita o cursiva, los
colores de fuente, tamaño de fuente, párrafos y tablas. Esto significa que debemos saber HTML muy bueno y tenemos que analizar en
primer lugar. Lo que necesitamos para esta tarea es una herramienta llamada "HTML a XML Convertidores". Uno se puede encontrar en su
página web. Se puede encontrar en el cuadro de recursos o simplemente ir a buscar en el Noviway

Eso es todo por ahora. Espero que hayan aprendido algo.