Διαφορά μεταξύ KDD και Εξόρυξης Δεδομένων
KDD vs Εξόρυξη Δεδομένων
Το KDD (Knowledge Discovery in Databases) περιλαμβάνει τα εργαλεία και τις θεωρίες που βοηθούν τον άνθρωπο να εξάγει χρήσιμες και προηγουμένως άγνωστες πληροφορίες (π.χ. γνώση) από μεγάλες συλλογές ψηφιοποιημένων δεδομένων. Το KDD αποτελείται από διάφορα βήματα και η εξόρυξη δεδομένων είναι μία από αυτές. Η εξόρυξη δεδομένων είναι η εφαρμογή ενός συγκεκριμένου αλγορίθμου για την εξαγωγή μοτίβων από δεδομένα. Παρ 'όλα αυτά, το KDD και η Εξόρυξη Δεδομένων χρησιμοποιούνται εναλλακτικά.
Τι είναι το KDD;
Όπως προαναφέρθηκε, το KDD είναι ένα πεδίο πληροφορικής, το οποίο ασχολείται με την εξαγωγή προηγουμένως άγνωστων και ενδιαφέρουσες πληροφορίες από ακατέργαστα δεδομένα. Το KDD είναι η όλη διαδικασία που προσπαθεί να κατανοήσει τα δεδομένα αναπτύσσοντας τις κατάλληλες μεθόδους ή τεχνικές. Αυτή η διαδικασία ασχολείται με τη χαρτογράφηση δεδομένων χαμηλού επιπέδου σε άλλες μορφές, τα οποία είναι πιο συμπαγή, αφηρημένα και χρήσιμα. Αυτό επιτυγχάνεται δημιουργώντας σύντομες αναφορές, μοντελοποιώντας τη διαδικασία παραγωγής δεδομένων και αναπτύσσοντας μοντέλα πρόβλεψης που μπορούν να προβλέψουν μελλοντικές περιπτώσεις. Λόγω της εκθετικής αύξησης των δεδομένων, ειδικά σε τομείς όπως οι επιχειρήσεις, η KDD έχει γίνει μια πολύ σημαντική διαδικασία για τη μετατροπή αυτού του μεγάλου πλούτου δεδομένων σε επιχειρηματική ευφυΐα, καθώς η χειρωνακτική εξόρυξη των προτύπων έχει γίνει φαινομενικά αδύνατη τις τελευταίες δεκαετίες. Για παράδειγμα, αυτή τη στιγμή χρησιμοποιείται για διάφορες εφαρμογές όπως ανάλυση κοινωνικών δικτύων, ανίχνευση απάτης, επιστήμη, επενδύσεις, μεταποίηση, τηλεπικοινωνίες, καθαρισμός δεδομένων, αθλητισμός, ανάκτηση πληροφοριών και σε μεγάλο βαθμό για εμπορία. Το KDD χρησιμοποιείται συνήθως για να απαντήσει σε ερωτήματα όπως ποια είναι τα βασικά προϊόντα που μπορούν να βοηθήσουν στην επίτευξη υψηλού κέρδους τον επόμενο χρόνο στο Wal-Mart;. Αυτή η διαδικασία έχει πολλά βήματα. Ξεκινά με την ανάπτυξη μιας κατανόησης του τομέα εφαρμογής και του στόχου και στη συνέχεια τη δημιουργία ενός συνόλου δεδομένων στόχων. Αυτό ακολουθείται από καθαρισμό, προεπεξεργασία, μείωση και προβολή δεδομένων. Το επόμενο βήμα είναι η χρήση του Data Mining (εξήγηση δεδομένων) (εξηγείται παρακάτω) για τον προσδιορισμό του σχεδίου. Τέλος, η ανακάλυψη της γνώσης ενοποιείται με οπτικοποίηση και / ή ερμηνεία.
Τι είναι η εξόρυξη δεδομένων;
Όπως αναφέρθηκε παραπάνω, η Εξόρυξη Δεδομένων είναι μόνο ένα βήμα στο πλαίσιο της συνολικής διαδικασίας KDD. Υπάρχουν δύο σημαντικοί στόχοι εξόρυξης δεδομένων όπως ορίζονται από τον στόχο της εφαρμογής και είναι συγκεκριμένα επαλήθευση ή ανακάλυψη. Η επαλήθευση επαληθεύει την υπόθεση του χρήστη σχετικά με τα δεδομένα, ενώ η ανακάλυψη εντοπίζει αυτόματα ενδιαφέροντα μοτίβα. Υπάρχουν τέσσερις σημαντικές εργασίες εξόρυξης δεδομένων: ομαδοποίηση, ταξινόμηση, παλινδρόμηση και συσχέτιση (σύνοψη). Η ομαδοποίηση προσδιορίζει παρόμοιες ομάδες από μη δομημένα δεδομένα. Η ταξινόμηση είναι κανόνες μάθησης που μπορούν να εφαρμοστούν σε νέα δεδομένα. Η παλινδρόμηση βρίσκει λειτουργίες με ελάχιστο σφάλμα στα μοντέλα δεδομένων.Και η ένωση αναζητά σχέσεις μεταξύ μεταβλητών. Στη συνέχεια, πρέπει να επιλεγεί ο συγκεκριμένος αλγόριθμος εξόρυξης δεδομένων. Ανάλογα με το στόχο, μπορούν να επιλεγούν διαφορετικοί αλγόριθμοι όπως η γραμμική παλινδρόμηση, η λογιστική παλινδρόμηση, τα δέντρα αποφάσεων και τα Naïve Bayes. Στη συνέχεια αναζητούνται πρότυπα ενδιαφέροντος σε μία ή περισσότερες αντιπροσωπευτικές μορφές. Τέλος, τα μοντέλα αξιολογούνται είτε χρησιμοποιώντας την προβλεπτική ακρίβεια είτε την κατανόηση.
Ποια είναι η διαφορά μεταξύ KDD και Data mining;
Αν και οι δύο όροι KDD και Data Mining χρησιμοποιούνται έντονα εναλλακτικά, αναφέρονται σε δύο σχετικές αλλά ελαφρώς διαφορετικές έννοιες. Το KDD είναι η συνολική διαδικασία εξαγωγής γνώσης από δεδομένα, ενώ η Εξόρυξη Δεδομένων είναι ένα βήμα μέσα στη διαδικασία KDD, η οποία ασχολείται με τον εντοπισμό προτύπων στα δεδομένα. Με άλλα λόγια, η Εξόρυξη Δεδομένων είναι μόνο η εφαρμογή ενός συγκεκριμένου αλγορίθμου που βασίζεται στον γενικό στόχο της διαδικασίας KDD.