Προγραμματισμός

* Γνώση Υπολογιστών >> Προγραμματισμός >> Python Προγραμματισμός

Πώς να Ξύστε & Parse Διευθύνσεις

ξύσιμο και ανάλυσης είναι δύο στενά συνδεδεμένες πρακτικές εξόρυξης δεδομένων της ιστοσελίδας. Η πιο γενική , την ανάλυση , αναφέρεται στην κατάρριψη των δεδομένων των επιμέρους στοιχείων του . Όταν μέσης σχολείο σας καθηγητής αγγλικών σας ζητηθεί να διάγραμμα ποινές , θα ήταν αναλύοντας τα λόγια αυτών των ποινών για τα μέρη του λόγου . Το ξύσιμο πιο συγκεκριμένα αναφέρεται σε parsing ιστοσελίδες για συγκεκριμένους τύπους δεδομένων , σε αυτή την περίπτωση , οι διευθύνσεις . Η γλώσσα προγραμματισμού Python και το " BeautifulSoup " επέκταση επιτρέπουν στο χρήστη να ξύσει και να αναλύσει ιστοσελίδες σε λίγες γραμμές κώδικα . Τα πράγματα που θα χρειαστείτε
Python 2.6 ή νεότερη έκδοση
BeautifulSoup 3.2
Η Εμφάνιση Περισσότερες οδηγίες
Η 1

Εγκατάσταση BeautifulSoup κατεβάζοντας την τελευταία έκδοση από το μίζερο λογισμικό και untar /unzip το αρχείο . Ανοίξτε ένα παράθυρο τερματικού και πληκτρολογήστε την ακόλουθη εντολή : My- iMac : ~ με $ python Downloads/BeautifulSoup-3.2.0/python setup.py εγκατάσταση

Αυτό λέει ο διερμηνέας Python ώστε να τρέξετε το BeautifulSoup script εγκατάστασης που μπορεί να να βρεθεί στο φάκελο BeautfulSoup , το οποίο βρίσκεται στο φάκελο Downloads 2

Τύπος Python στην προτροπή , χτύπησε την επιστροφή και BeautifulSoup εισαγωγής : . μου - iMac : ~ με $ python >>> εισαγωγής BeautifulSoup εικόνων
3

Εκτελέστε την ακόλουθη δέσμη ενεργειών για να ανοίξει μια ιστοσελίδα και να εκτυπώσετε οποιαδήποτε Locators Universal Resource ( web διευθύνσεις ) μπορείτε να βρείτε στη σελίδα : >>> urllib2 εισαγωγής >> ? > page = urllib2.urlopen ( " http://www.THE URL ΘΕΛΕΤΕ να ξύσει HERE" ) >>> σούπα = BeautifulSoup ( σελίδα ) >>> soup.findAll ( «μια » ) >>> soup.strip print () >>> printThis σενάριο θα ανοίξει μια ιστοσελίδα , να αναλύσει το html , αναζητήστε την ετικέτα στο οποίο οι διευθύνσεις web ενσωματωμένα , αφαιρέστε τις ετικέτες και να αφήσει το κείμενο .
Η
εικόνων

Συναφής σύστασή

Πνευματικά δικαιώματα © Γνώση Υπολογιστών Όλα τα δικαιώματα κατοχυρωμένα