Ένας ανιχνευτής Ιστού, ή web crawler που μερικές φορές ονομάζεται spider ή spiderbot, είναι ένα διαδικτυακό ρομπότ που περιηγείται συστηματικά τον Παγκόσμιο Ιστό και συνήθως λειτουργεί από μηχανές αναζήτησης με σκοπό την ευρετηρίαση Ιστού ( web spidering ).[1]

Αρχιτεκτονική ενός ανιχνευτή Ιστού

Οι μηχανές αναζήτησης Ιστού και ορισμένοι άλλοι ιστότοποι χρησιμοποιούν λογισμικό ανίχνευσης Ιστού ή spidering για να ενημερώσουν το περιεχόμενό ιστού τουςή τους δείκτες περιεχομένου ιστού άλλων ιστοτόπων. Οι ανιχνευτές Ιστού αντιγράφουν σελίδες για επεξεργασία από μια μηχανή αναζήτησης, η οποία ευρετηριάζει τις ληφθείσες σελίδες, ώστε οι χρήστες να μπορούν να αναζητούν πιο αποτελεσματικά.

Οι ανιχνευτές καταναλώνουν πόρους σε συστήματα που επισκέπτονται και συχνά επισκέπτονται ιστότοπους χωρίς προτροπή. Ζητήματα χρονοδιαγράμματος, φόρτωσης και «ευγένειας» μπαίνουν στο παιχνίδι όταν προσπελάζονται μεγάλες συλλογές σελίδων. Υπάρχουν μηχανισμοί για δημόσιους ιστότοπους που δεν επιθυμούν να ανιχνευτούν για να το γνωστοποιήσουν στον παράγοντα ανίχνευσης. Για παράδειγμα, η συμπερίληψη ενός αρχείου robots.txt μπορεί να ζητήσει από τα ρομπότ να ευρετηριάσουν μόνο τμήματα ενός ιστότοπου ή τίποτα.

Ο αριθμός των σελίδων στο Διαδίκτυο είναι εξαιρετικά μεγάλος· ακόμη και τα μεγαλύτερα προγράμματα ανίχνευσης δεν μπορούν να δημιουργήσουν ένα πλήρες ευρετήριο. Για το λόγο αυτό, οι μηχανές αναζήτησης αγωνίστηκαν να δώσουν σχετικά αποτελέσματα αναζήτησης στα πρώτα χρόνια του Παγκόσμιου Ιστού, πριν από το 2000. Σήμερα, σχετικά αποτελέσματα δίνονται σχεδόν άμεσα.

Τα προγράμματα ανίχνευσης μπορούν να επικυρώσουν υπερσυνδέσμους και κώδικα HTML . Μπορούν επίσης να χρησιμοποιηθούν για web scraping και προγραμματισμό βάσει δεδομένων .

Παραπομπές Επεξεργασία