Προγραμματισμός

* Γνώση Υπολογιστών >> Προγραμματισμός >> Προγραμματισμός Υπολογιστών Γλώσσες

Πώς να κάνω μια Bot Web

Οι μηχανές αναζήτησης , όπως το Google ή το Yahoo! , τραβήξτε σελίδες Web σε αποτελέσματα αναζήτησης τους, με τη χρήση Web bots ( επίσης μερικές φορές ονομάζεται αράχνες ή τις αντιολισθητικές αλυσίδες ) , τα οποία είναι προγράμματα που σαρώνουν το Διαδίκτυο και το δείκτη ιστοσελίδες σε μια βάση δεδομένων . Web bots μπορούν να γίνουν χρησιμοποιώντας τις περισσότερες γλώσσες προγραμματισμού , συμπεριλαμβανομένων των C , Perl , Python και PHP , τα οποία επιτρέπουν στους μηχανικούς λογισμικού να γράψει σενάρια που εκτελούν διαδικαστικά καθήκοντα , όπως το Web σάρωση και την ευρετηρίαση . Οδηγίες
Η

1 Ανοίξτε ένα απλό κείμενο εφαρμογής επεξεργασίας , όπως το Σημειωματάριο , το οποίο περιλαμβάνεται στα Microsoft Windows , ή TextEdit του Mac OS X , όπου θα συγγραφέα ένα Python Web εφαρμογή bot .

2

Ξεκινήστε το σενάριο Python περιλαμβάνοντας τις ακόλουθες γραμμές κώδικα , και αντικαθιστώντας το παράδειγμα URL με τη διεύθυνση URL της ιστοσελίδας που θέλετε να σαρώσετε και το όνομα της βάσης του παραδείγματος με τη βάση δεδομένων που θα αποθηκεύει τα αποτελέσματα :

urllib2 εισαγωγής , εκ νέου , stringenter_point = ' http://www.exampleurl.com ' db_name = ' example.sql » εικόνων
3

Συμπεριλάβετε τις ακόλουθες γραμμές κώδικα καθορίζουν τη σειρά των λειτουργιών που το bot Web θα ακολουθήσει :

def uniq ( επ. ) : = { που } χάρτη ( set.__setitem__ , επ. , [ ] ) επιστρέφει set.keys ( )

4

Αποκτήστε τις διευθύνσεις URL στη δομή της ιστοσελίδας , χρησιμοποιώντας τις παρακάτω γραμμές κώδικα :

def geturls ( url ) : items = [ ] = αίτηση urllib2.Request ( url ) request.add.header ( «Χρήστης» , « bot_name ;) » ) περιεχόμενο = urllib2.urlopen (αίτηση) . read ( ) στοιχεία = re.findall ( ' href = " http://. ; " » , περιεχόμενο) urls = [ ] επιστροφή urls
5

Ορίστε τη βάση δεδομένων που το bot Web θα χρησιμοποιήσει και να προσδιορίσει ποιες πληροφορίες θα πρέπει να αποθηκεύει για να ολοκληρωθεί κάνει το bot Web :

db = ανοικτό ( db_name , 'a') allurls = uniq ( geturls ( enter_point ) )
Η 6

Αποθηκεύστε το αρχείο κειμένου και να το φορτώσετε σε ένα διακομιστή ή υπολογιστή με σύνδεση στο διαδίκτυο, όπου μπορείτε να εκτελέσετε το σενάριο και να αρχίσει σάρωση των σελίδων web .


εικόνων

Συναφής σύστασή

Πνευματικά δικαιώματα © Γνώση Υπολογιστών Όλα τα δικαιώματα κατοχυρωμένα