λογισμικό

* Γνώση Υπολογιστών >> λογισμικό >> Υπολογιστικά φύλλα

Στοιχεία Καθαρισμός & Κωδικοποίηση Διαδικασίες

Κατά την ανάλυση των δεδομένων , δεν είναι μόνο απαραίτητο να έχει ένα αρκετά μεγάλο ποσό , αλλά είναι επίσης σημαντικό ότι η ποιότητα των δεδομένων είναι υψηλών προδιαγραφών . Τα δεδομένα μπορούν να γίνουν "βρώμικο" σε μια σειρά από τρόπους - λάθη κατά τη διάρκεια της συλλογής , τα λάθη γίνονται κατά την ενσωμάτωσή πολλαπλές σειρές δεδομένων και τυχαία διαγραφή είναι μερικά μόνο από τους τρόπους αυτούς . Εξαιτίας αυτού , είναι σημαντικό ότι τα δεδομένα καθαρίζονται πριν από τη χρήση . Τα δεδομένα που λείπουν
Η

Αυτοματοποιημένες διαδικασίες χρησιμοποιούνται συχνά για να βρείτε τα δεδομένα που λείπουν . Αυτά μπορεί να είναι SQL ερωτημάτων σε μια βάση δεδομένων , ή στατιστικές αναλύσεις . Ως αναλυτής θα αναζητήσει πρότυπα στην κατανομή των δεδομένων που λείπουν . Μπορείτε στη συνέχεια να λάβει αποφάσεις σχετικά με το τι πρέπει να κάνει , η οποία μπορεί να αποκλείει ορισμένες μεταβλητές συνολικά , ή την αντικατάσταση αξίες τους με τους μέσους όρους . Μερικές φορές τα δεδομένα που λείπουν μπορούν να αναφέρουν σφάλματα κατά την ενσωμάτωση πολλών συνόλων δεδομένων , και στη χειρότερη περίπτωση , η όλη διαδικασία μπορεί να χρειαστεί να επαναληφθεί για την λήψη όλων των δεδομένων .
Εικόνων ακραίες τιμές
Η

μια ακραία τιμή είναι μια τιμή δεδομένων που είναι ο τρόπος έξω από το γενικό πρότυπο των δεδομένων . Μπορούν να προσδιοριστούν με γραφήματα, όπως τα οικόπεδα κουτί , ή ψάχνει για τιμές ορισμένο αριθμό των τυπικών αποκλίσεων από τη μέση τιμή . Μόλις εντοπιστεί , θα πρέπει να αποφασίσει αν θα τους αφαιρέσει ή όχι - η οποία περιλαμβάνει να αποφασίσει αν ήταν λάθη στη συλλογή δεδομένων , ή πραγματικές τιμές . Μερικές φορές , μπορείτε να επιλέξετε να εκτελέσετε ορισμένες διαδικασίες με και χωρίς ακραίες τιμές , να συγκρίνουν τα αποτελέσματα .

Η διαμόρφωση Λάθη
Η

Πιο πεζά λάθη σε ένα σύνολο δεδομένων μπορεί να να είναι ορθογραφικά λάθη ή άλλα παρόμοια λάθη . Ερωτήματα μπορεί να χρησιμοποιηθεί για να βρείτε και να αντικαταστήσετε προφανή λάθη , όπως λάθη των εμπορικών ονομάτων ή περιοχές, αλλά μπορούν επίσης να χρησιμοποιηθεί για να τονίσει τα σημεία δεδομένων που ενδέχεται να χρειάζεται καθαρισμό . Για παράδειγμα , μπορείτε να εκτελέσετε μια αναζήτηση για επώνυμα, ή αριθμούς τηλεφώνου πάνω και κάτω από ένα ορισμένο μήκος , για να εντοπίσετε τα λάθη που συνέβησαν κάπου κατά μήκος της συλλογής δεδομένων και της διαδικασίας ολοκλήρωσης .
Η
Πληροφορίες κωδικοποίησης

είναι κοινό για τα δεδομένα αρχικά να είναι σε μορφή που να είναι ακατάλληλο για ανάλυση . Για παράδειγμα , οι απαντήσεις στην έρευνα μπορεί να χρειαστεί να μετατραπεί σε ένα αριθμητικό ισοδύναμο , για παράδειγμα, από το " Συμφωνώ απόλυτα " με το " 7 " ή κατηγορικές μεταβλητές όπως το φύλο μπορεί να χρειαστεί να μετατραπούν σε δυαδικές μεταβλητές δείκτη . Αυτό ονομάζεται κωδικοποίηση ή εκ νέου κωδικοποίηση , και είναι καλή πρακτική για τη δημιουργία νέων μεταβλητών με τα νέα κωδικοποιημένα δεδομένα αντί να αντικαταστήσετε τα παλιά , έτσι ώστε τα λάθη μπορεί να είναι πίσω ελέγχονται .

Η

Συναφής σύστασή

Πνευματικά δικαιώματα © Γνώση Υπολογιστών Όλα τα δικαιώματα κατοχυρωμένα