Διαφορά μεταξύ της εξόρυξης δεδομένων και Αποθήκες Δεδομένων

Anonim

Η εξόρυξη δεδομένων έναντι αποθήκευσης δεδομένων

Η εξόρυξη δεδομένων και η αποθήκευση δεδομένων είναι και πολύ ισχυρές και δημοφιλείς τεχνικές για την ανάλυση δεδομένων. Οι χρήστες που τείνουν προς τα στατιστικά στοιχεία χρησιμοποιούν το Data Mining. Χρησιμοποιούν στατιστικά μοντέλα για να αναζητήσουν κρυμμένα μοτίβα στα δεδομένα. Οι ανθρακωρύχοι δεδομένων ενδιαφέρονται να βρουν χρήσιμες σχέσεις μεταξύ διαφορετικών στοιχείων δεδομένων, τα οποία είναι τελικά κερδοφόρα για τις επιχειρήσεις. Από την άλλη πλευρά, οι εμπειρογνώμονες δεδομένων που μπορούν να αναλύσουν τις διαστάσεις της επιχείρησης έχουν άμεση τάση να χρησιμοποιούν αποθήκες δεδομένων.

Η εξόρυξη δεδομένων είναι επίσης γνωστή ως Knowledge Discovery in data (KDD). Όπως αναφέρθηκε παραπάνω, πρόκειται για ένα πεδίο επιστήμης των υπολογιστών, το οποίο ασχολείται με την εξαγωγή προηγουμένως άγνωστων και ενδιαφέρουσες πληροφορίες από ακατέργαστα δεδομένα. Λόγω της εκθετικής αύξησης των δεδομένων, ειδικά σε τομείς όπως οι επιχειρήσεις, η εξόρυξη δεδομένων έχει καταστεί πολύ σημαντικό εργαλείο για τη μετατροπή αυτού του μεγάλου πλούτου δεδομένων σε επιχειρηματική ευφυΐα, καθώς η χειρωνακτική εξόρυξη των σχεδίων έχει καταστεί φαινομενικά αδύνατη τις τελευταίες δεκαετίες. Για παράδειγμα, αυτή τη στιγμή χρησιμοποιείται για διάφορες εφαρμογές όπως ανάλυση κοινωνικών δικτύων, ανίχνευση απάτης και εμπορία. Η εξόρυξη δεδομένων συνήθως ασχολείται με τα ακόλουθα τέσσερα καθήκοντα: ομαδοποίηση, ταξινόμηση, παλινδρόμηση και συσχέτιση. Η ομαδοποίηση προσδιορίζει παρόμοιες ομάδες από μη δομημένα δεδομένα. Η ταξινόμηση είναι κανόνες μάθησης που μπορούν να εφαρμοστούν στα νέα δεδομένα και συνήθως περιλαμβάνουν τα ακόλουθα βήματα: προεπεξεργασία δεδομένων, σχεδιασμός μοντελοποίησης, επιλογή μαθημάτων / χαρακτηριστικών και αξιολόγηση / επικύρωση. Η παλινδρόμηση βρίσκει λειτουργίες με ελάχιστο σφάλμα στα μοντέλα δεδομένων. Και η ένωση αναζητά σχέσεις μεταξύ μεταβλητών. Η εξόρυξη δεδομένων χρησιμοποιείται συνήθως για να απαντήσει σε ερωτήσεις όπως είναι τα βασικά προϊόντα που θα μπορούσαν να βοηθήσουν στην επίτευξη υψηλού κέρδους τον επόμενο χρόνο στο Wal-Mart;

Όπως αναφέρθηκε παραπάνω, η αποθήκευση δεδομένων χρησιμοποιείται επίσης για την ανάλυση δεδομένων, αλλά από διαφορετικά σύνολα χρηστών και κατά κάποιον τρόπο διαφορετικό στόχο. Για παράδειγμα, όταν πρόκειται για τον τομέα λιανικής, οι χρήστες αποθήκευσης δεδομένων ενδιαφέρονται περισσότερο για το είδος των αγορών που είναι δημοφιλείς μεταξύ των πελατών, έτσι ώστε τα αποτελέσματα της ανάλυσης να μπορούν να βοηθήσουν τον πελάτη βελτιώνοντας την εμπειρία του πελάτη. Όμως, οι ανθρακωρύχοι δεδομένων υποθέτουν πρώτα μια υπόθεση όπως είναι οι πελάτες που αγοράζουν ένα συγκεκριμένο είδος προϊόντος και αναλύουν τα δεδομένα για να ελέγξουν την υπόθεση. Η αποθήκευση δεδομένων θα μπορούσε να πραγματοποιηθεί από έναν σημαντικό λιανοπωλητή ο οποίος αρχικά διέθετε τα καταστήματά του με τα ίδια μεγέθη προϊόντων για να ανακαλύψει αργότερα ότι τα καταστήματα της Νέας Υόρκης πωλούν αποθέματα μικρότερου μεγέθους πολύ ταχύτερα από ό, τι στα καταστήματα του Σικάγου. Έτσι, εξετάζοντας αυτό το αποτέλεσμα, ο λιανοπωλητής μπορεί να διαθέσει το κατάστημα της Νέας Υόρκης με μικρότερα μεγέθη σε σύγκριση με τα καταστήματα του Σικάγου.

Έτσι, όπως μπορείτε να δείτε καθαρά, αυτοί οι δύο τύποι ανάλυσης φαίνεται να είναι της ίδιας φύσης με γυμνό μάτι. Και οι δύο ανησυχούν για την αύξηση των κερδών με βάση τα ιστορικά δεδομένα. Αλλά φυσικά, υπάρχουν βασικές διαφορές. Με απλά λόγια, το Data Mining και η Αποθήκευση Δεδομένων είναι αφιερωμένα στην παροχή διαφορετικών τύπων αναλυτικών στοιχείων, αλλά σίγουρα για διαφορετικούς τύπους χρηστών. Με άλλα λόγια, η Εξόρυξη Δεδομένων αναζητά συσχετισμούς, προτάσεις για την υποστήριξη μιας στατιστικής υπόθεσης. Όμως, η Data Warehousing απαντά σε μια συγκριτικά ευρύτερη ερώτηση και αναλύει τα δεδομένα από εκεί και πέρα ​​για να αναγνωρίσει τρόπους βελτίωσης στο μέλλον.