Diferența cheie între grupare și clasificare este că clusterizarea este o tehnică de învățare nesupravegheată care grupează instanțe similare pe baza caracteristicilor, în timp ce clasificarea este o tehnică de învățare supravegheată care atribuie etichete predefinite instanțelor pe baza caracteristicilor.
Deși gruparea și clasificarea par a fi procese similare, există o diferență între ele în funcție de semnificația lor. În lumea mineritului de date, gruparea și clasificarea sunt două tipuri de metode de învățare. Ambele metode caracterizează obiectele în grupuri prin una sau mai multe caracteristici.
CUPRINS
1. Prezentare generală și diferența cheie
2. Ce este clusterizarea
3. Ce este clasificarea
4. Comparație side by side - Clustering vs clasificare în formă tabelară
5. Rezumat
Ce este clusterizarea?
Clusterizarea este o metodă de grupare a obiectelor în așa fel încât obiectele cu trăsături similare să se reunească, iar obiectele cu trăsături diferite să se despartă. Este o tehnică obișnuită pentru analiza datelor statistice pentru învățarea automată și extragerea datelor. Analiza și generalizarea datelor exploratorii este, de asemenea, un domeniu care utilizează clusterizarea.
Figura 01: Clustering
Clusterizarea aparține exploatării de date nesupravegheate. Nu este un singur algoritm specific, dar este o metodă generală de rezolvare a unei sarcini. Prin urmare, este posibil să se realizeze gruparea utilizând diferiți algoritmi. Algoritmul cluster adecvat și setările parametrilor depind de seturile de date individuale. Nu este o sarcină automată, dar este un proces iterativ de descoperire. Prin urmare, este necesar să modificați procesarea datelor și modelarea parametrilor până când rezultatul atinge proprietățile dorite. Clusterizarea K-means și clusterizarea ierarhică sunt doi algoritmi de clustering obișnuiți în exploatarea datelor.
Ce este clasificarea?
Clasificarea este un proces de clasificare care utilizează un set de date de instruire pentru a recunoaște, diferenția și înțelege obiecte. Clasificarea este o tehnică de învățare supravegheată, unde sunt disponibile un set de instruire și observații corect definite.
Figura 02: Clasificare
Algoritmul care implementează clasificarea este clasificatorul, în timp ce observațiile sunt instanțele. Algoritmul K-Near Neighbor și algoritmii arborelui de decizie sunt cei mai faimoși algoritmi de clasificare în mineritul datelor.
Care este diferența dintre grupare și clasificare?
Clusterizarea este o învățare nesupravegheată, în timp ce clasificarea este o tehnică de învățare supravegheată. Acesta grupează instanțe similare pe baza caracteristicilor, în timp ce clasificarea atribuie etichete predefinite instanțelor pe baza caracteristicilor. Clusterizarea împarte setul de date în subseturi pentru a grupa instanțele cu caracteristici similare. Nu folosește date etichetate sau un set de antrenament. Pe de altă parte, clasificați noile date în funcție de observațiile setului de instruire. Setul de antrenament este etichetat.
Scopul grupării este de a grupa un set de obiecte pentru a afla dacă există vreo relație între ele, în timp ce clasificarea are scopul de a găsi din ce clasă aparține un obiect nou din setul de clase predefinite.
Rezumat - Clustering vs Clasificare
Clusterizarea și clasificarea pot părea similare, deoarece ambii algoritmi de extragere a datelor împart setul de date în subseturi, dar sunt două tehnici de învățare diferite, în extragerea datelor pentru a obține informații fiabile dintr-o colecție de date brute. Diferența dintre grupare și clasificare este că clusterizarea este o tehnică de învățare nesupravegheată care grupează instanțe similare pe baza caracteristicilor, în timp ce clasificarea este o tehnică de învățare supravegheată care atribuie etichete predefinite instanțelor pe baza caracteristicilor.
Amabilitatea imaginii:
1. „Cluster-2 ″ de Cluster-2.gif: lucrare hellisp derivată: (Domeniu public) prin Wikimedia Commons 2.„ Magnetism”de John Aplessed - Lucrare proprie. (Domeniu public) prin Wikimedia Commons