Διαφορά μεταξύ ιεραρχικής και μερικής συσσωμάτωσης

Anonim

Η ιεραρχική / μερική συμπλοκοποίηση

είναι μια τεχνική εκμάθησης μηχανών για την ανάλυση δεδομένων και τη διαίρεση σε ομάδες παρόμοιων δεδομένων. Αυτές οι ομάδες ή σύνολα παρόμοιων δεδομένων είναι γνωστά ως συστάδες. Η ανάλυση συμπλέγματος εξετάζει τους αλγόριθμους ομαδοποίησης που μπορούν να προσδιορίσουν αυτόματα τις συστάδες. Η ιεραρχική και η μερική είναι δύο τέτοιες κατηγορίες αλγορίθμων ομαδοποίησης. Οι ιεραρχικοί αλγόριθμοι ομαδοποίησης διασπούν τα δεδομένα σε μια ιεραρχία ομάδων. Οι αλγόριθμοι διαχωρισμού χωρίζουν το σύνολο δεδομένων σε χωριστά χωριστά διαμερίσματα.

Τι είναι η ιεραρχική ομαδοποίηση;

Οι αλγόριθμοι ιεραρχικής ομαδοποίησης επαναλαμβάνουν τον κύκλο είτε τη συγχώνευση μικρότερων ομάδων σε μεγαλύτερες είτε τη διαίρεση μεγαλύτερων συμπλεγμάτων σε μικρότερες. Είτε έτσι είτε αλλιώς, παράγει μια ιεραρχία ομάδων που ονομάζεται dendogram. Η στρατηγική συσσωματωμένης συσσωμάτωσης χρησιμοποιεί την προσέγγιση "από τη βάση προς τα πάνω" των συγχωνευμένων συμπλεγμάτων σε μεγαλύτερες, ενώ η στρατηγική διαίρετης ομαδοποίησης χρησιμοποιεί την προσέγγιση "από πάνω προς τα κάτω" για τη διάσπαση σε μικρότερες. Συνήθως, η άπληστη προσέγγιση χρησιμοποιείται για να αποφασιστεί ποια μεγαλύτερα / μικρότερα σύνολα χρησιμοποιούνται για συγχώνευση / διαίρεση. Η ευκλείδεια απόσταση, η απόσταση από το Μανχάταν και η ομοιότητα κοσκινίσματος είναι μερικές από τις συχνότερα χρησιμοποιούμενες μετρήσεις ομοιότητας για αριθμητικά δεδομένα. Για μη-αριθμητικά δεδομένα, χρησιμοποιούνται μετρήσεις όπως η απόσταση Hamming. Είναι σημαντικό να σημειωθεί ότι οι πραγματικές παρατηρήσεις (περιπτώσεις) δεν χρειάζονται για ιεραρχική συσσωμάτωση, επειδή μόνο η μήτρα αποστάσεων είναι επαρκής. Το Dendogram είναι μια οπτική αναπαράσταση των ομάδων, που εμφανίζει την ιεραρχία πολύ καθαρά. Ο χρήστης μπορεί να αποκτήσει διαφορετική ομαδοποίηση ανάλογα με το επίπεδο στο οποίο έχει κοπεί το dendogram.

Τι είναι η μερική συμπλοκοποίηση;

Οι αλγόριθμοι μερικής ομαδοποίησης δημιουργούν διάφορα διαμερίσματα και στη συνέχεια αξιολογούν με κάποιο κριτήριο. Αναφέρονται επίσης ως μη ιεραρχικά, δεδομένου ότι κάθε περίπτωση τοποθετείται σε ένα από τα αμοιβαία αποκλειστικά συμπλέγματα k. Επειδή μόνο ένα σύνολο συστοιχιών είναι η έξοδος ενός τυπικού αλγορίθμου διαχωριστικής ομαδοποίησης, ο χρήστης υποχρεούται να εισάγει τον επιθυμητό αριθμό συστάδων (συνήθως ονομάζεται k). Ένας από τους συνηθέστερα χρησιμοποιούμενους χωριστούς αλγόριθμους ομαδοποίησης είναι ο αλγόριθμος ομαδοποίησης k-mean. Ο χρήστης υποχρεούται να παρέχει τον αριθμό των συστάδων (k) πριν την εκκίνηση και ο αλγόριθμος αρχίζει πρώτα τα κέντρα (ή τα κεντροειδή) των διαμερισμάτων k. Με λίγα λόγια, ο αλγόριθμος ομαδοποίησης k-mean στη συνέχεια αναθέτει τα μέλη με βάση τα τρέχοντα κέντρα και τα νέα κέντρα εκτίμησης βάσει των σημερινών μελών. Αυτά τα δύο βήματα επαναλαμβάνονται μέχρις ότου βελτιστοποιηθεί μια συγκεκριμένη λειτουργία αντικειμενικής ομοιότητας εντός συμπλέγματος και η αντικειμενική συνάρτηση διαφορετικότητας μεταξύ συστάδων.Επομένως, η λογική αρχικοποίηση των κέντρων είναι ένας πολύ σημαντικός παράγοντας για την επίτευξη ποιοτικών αποτελεσμάτων από αλγορίθμους διαχωρισμού.

Ποια είναι η διαφορά μεταξύ της ιεραρχικής και της μερικής ομαδοποίησης;

Η ιεραρχική και η μερική συμπλοκοποίηση έχουν βασικές διαφορές στον χρόνο εκτέλεσης, τις παραδοχές, τις παραμέτρους εισόδου και τα προκύπτοντα συμπλέγματα. Τυπικά, η μερική συσσώρευση είναι ταχύτερη από την ιεραρχική συσσώρευση. Η ιεραρχική ομαδοποίηση απαιτεί μόνο ένα μέτρο ομοιότητας, ενώ η μερική ομαδοποίηση απαιτεί ισχυρότερες υποθέσεις όπως ο αριθμός των συστάδων και τα αρχικά κέντρα. Η ιεραρχική ομαδοποίηση δεν απαιτεί παραμέτρους εισόδου, ενώ οι αλγόριθμοι χωριστής ομαδοποίησης απαιτούν την έναρξη λειτουργίας του αριθμού των συστάδων. Η ιεραρχική ομαδοποίηση επιστρέφει μια πολύ πιο ουσιαστική και υποκειμενική κατανομή των συστάδων, αλλά η μερική συσσωμάτωση έχει ως αποτέλεσμα ομάδες ακριβώς k. Οι αλγόριθμοι ιεραρχικής ομαδοποίησης είναι πιο κατάλληλοι για κατηγορηματικά δεδομένα εφόσον μπορεί να οριστεί ανάλογα ένα μέτρο ομοιότητας.