Προγραμματισμός

* Γνώση Υπολογιστών >> Προγραμματισμός >> Python Προγραμματισμός

Πώς να χρησιμοποιήσετε Html5lib σε Python

Η γλώσσα προγραμματισμού Python μπορεί να υποστηρίξει HTML 5 web sites που χρησιμοποιούν τη βιβλιοθήκη » Html5lib ». Αυτή η βιβλιοθήκη σας επιτρέπει να γράψετε Python scripts που αναλύει HTML 5 σελίδες χρησιμοποιώντας μια δομή δέντρου . Δομές δέντρο είναι ιεραρχικά θέα της ιστοσελίδας στοιχείων . Πρόσβαση σε web σελίδα στοιχείων επιτυγχάνεται χρησιμοποιώντας ένα δέντρο περιπατητή . Το δέντρο περιπατητής « βόλτες » κατά μήκος των συνδέσεων των κόμβων του δέντρου , και μπορεί να διασχίσει ολόκληρο το δέντρο . Μπορείτε να χρησιμοποιήσετε την Python με « Html5lib " για να ανοίξετε , να προβάλετε και να εκτυπώσετε μια ιστοσελίδα HTML 5 . Τα πράγματα που θα χρειαστείτε
γλώσσα προγραμματισμού Python 3.2 με Html5lib ενότητα

Παρουσίαση Περισσότερες οδηγίες
Η

1 Ανοίξτε το IDLE επεξεργαστή κειμένου σε Program Files ( ή Εφαρμογές για Macintosh ) στο Κατάλογος Python . Ανοίγει ένα κενό αρχείο πηγαίου κώδικα 2

Εισαγωγή του " Html5lib " μονάδα γράφοντας τις ακόλουθες δηλώσεις στην κορυφή του αρχείου πηγαίου κώδικα : .

Εισαγωγής html5lib

από html5lib treebuilders εισαγωγής , treewalkers , serializer

εισαγωγής urllib2 εικόνων
3

Δημιουργήστε μια νέα HTML 5 parser , το οποίο θα χρησιμοποιήσετε για να διαβάσετε μια ιστοσελίδα HTML . Δηλώνοντας μια νέα parser γράφοντας τα εξής :

αναλυτή = html5lib.HTMLParser ( )
Η 4

Ανοίξτε μια ιστοσελίδα περνώντας το όνομά της στο urllib2.urlopen λειτουργία . Για παράδειγμα , αν θέλετε να ανοίξετε " www.website_adddress.com », γράφουν τα εξής : .

URL = urllib2.urlopen ( " http://www.website_address.com » ) read ( )

5

Περάστε την ιστοσελίδα στην HTML 5 parser για να λάβετε μια αναπαράσταση δέντρων . Αποθηκεύστε αυτή την αναπαράσταση σε μια μεταβλητή με το όνομα «δέντρο» γράφοντας την ακόλουθη δήλωση :

δέντρο = parser.parse ( URL )
Η 6

Δημιουργήστε ένα δέντρο walker σαν αυτό :

treeWalker = treewalkers.getTreeWalker ( " dom " )
Η 7

Περπατήστε μέσα από το δέντρο χρησιμοποιώντας το δέντρο περιπατητή . Το δέντρο περιπατητής θα επιστρέψει μια ροή των πληροφοριών που ανακαλύπτει στην HTML 5 ιστοσελίδα . Για να περπατήσετε μέσα από το δέντρο , να γράψει το εξής :

ρεύμα = treeWalker ( δέντρο )
8

Serialize το ρεύμα , έτσι ώστε να μπορείτε εύκολα να το εξάγει στην κονσόλα . Μπορείτε να serialize το ρεύμα χρησιμοποιώντας τις ακόλουθες δύο καταστάσεις:

serial = serializer.htmlserializer.HTMLSerializer ( omit_optional_tags = False )

εξόδου = serial.serialize ( stream)
Η 9

επαναλάβει μέσω της συνέχειες εξόδου του ρεύματος , όπως αυτό :

για το στοιχείο της παραγωγής :
Η 10

Εσοχή η γραμμή αμέσως μετά την προηγούμενη δήλωση και να γράψουν μια λειτουργία εκτύπωσης, όπως αυτό :

εκτύπωσης ( στοιχείο)

11

Εκτελέστε το πρόγραμμα πατώντας F5 . Το σενάριο θα ανοίξει και στη συνέχεια να αναλύσει την HTML 5 ιστοσελίδα . Το σενάριο τότε serializes τη δομή δέντρου της σελίδας και εξάγει το στην κονσόλα . Η έξοδος θα ποικίλουν ανάλογα με την ιστοσελίδα που θα επιλεγεί, αλλά μπορεί να μοιάζει κάπως έτσι :





Καλώς ήρθατε σε μια ιστοσελίδα !



Η

Η

Συναφής σύστασή

Πνευματικά δικαιώματα © Γνώση Υπολογιστών Όλα τα δικαιώματα κατοχυρωμένα