Diferența Dintre KDD și Extragerea Datelor

Diferența Dintre KDD și Extragerea Datelor
Diferența Dintre KDD și Extragerea Datelor
Anonim

KDD vs Minarea datelor

KDD (Knowledge Discovery in Databases) este un domeniu al informaticii, care include instrumentele și teoriile pentru a ajuta oamenii să extragă informații utile și necunoscute anterior (adică cunoștințe) din colecții mari de date digitalizate. KDD constă din mai mulți pași, iar Data Mining este unul dintre ei. Data Mining este aplicarea unui algoritm specific pentru a extrage tipare din date. Cu toate acestea, KDD și Data Mining sunt utilizate în mod interschimbabil.

Ce este KDD?

După cum sa menționat mai sus, KDD este un domeniu al informaticii, care se ocupă cu extragerea de informații necunoscute anterior și interesante din date brute. KDD este întregul proces de a înțelege datele prin dezvoltarea de metode sau tehnici adecvate. Acest proces se ocupă de maparea datelor de nivel scăzut în alte forme, care sunt mai compacte, abstracte și utile. Acest lucru se realizează prin crearea de rapoarte scurte, modelarea procesului de generare a datelor și dezvoltarea de modele predictive care pot prezice cazuri viitoare. Datorită creșterii exponențiale a datelor, în special în domenii precum afaceri, KDD a devenit un proces foarte important pentru a converti această mare bogăție de date în business intelligence, deoarece extracția manuală a modelelor a devenit aparent imposibilă în ultimele decenii. De exemplu,în prezent este utilizat pentru diverse aplicații, cum ar fi analiza rețelelor sociale, detectarea fraudei, știință, investiții, producție, telecomunicații, curățarea datelor, sport, recuperarea informațiilor și în mare parte pentru marketing. KDD este de obicei folosit pentru a răspunde la întrebări precum care sunt principalele produse care ar putea ajuta la obținerea unui profit ridicat anul viitor în Wal-Mart ?. Acest proces are mai mulți pași. Începe cu dezvoltarea unei înțelegeri a domeniului aplicației și a obiectivului și apoi crearea unui set de date țintă. Urmează curățarea, preprocesarea, reducerea și proiecția datelor. Următorul pas este utilizarea Data Mining (explicată mai jos) pentru a identifica modelul. În cele din urmă, cunoștințele descoperite se consolidează prin vizualizare și / sau interpretare.sport, regăsirea informațiilor și în mare parte pentru marketing. KDD este de obicei folosit pentru a răspunde la întrebări precum care sunt principalele produse care ar putea ajuta la obținerea unui profit ridicat anul viitor în Wal-Mart ?. Acest proces are mai mulți pași. Începe cu dezvoltarea unei înțelegeri a domeniului aplicației și a obiectivului și apoi crearea unui set de date țintă. Urmează curățarea, preprocesarea, reducerea și proiecția datelor. Următorul pas este utilizarea Data Mining (explicată mai jos) pentru a identifica modelul. În cele din urmă, cunoștințele descoperite se consolidează prin vizualizare și / sau interpretare.sport, regăsirea informațiilor și în mare parte pentru marketing. KDD este de obicei folosit pentru a răspunde la întrebări precum care sunt principalele produse care ar putea ajuta la obținerea unui profit ridicat anul viitor în Wal-Mart ?. Acest proces are mai mulți pași. Începe cu dezvoltarea unei înțelegeri a domeniului aplicației și a obiectivului și apoi crearea unui set de date țintă. Urmează curățarea, preprocesarea, reducerea și proiecția datelor. Următorul pas este utilizarea Data Mining (explicată mai jos) pentru a identifica modelul. În cele din urmă, cunoștințele descoperite se consolidează prin vizualizare și / sau interpretare. Începe cu dezvoltarea unei înțelegeri a domeniului aplicației și a obiectivului și apoi crearea unui set de date țintă. Urmează curățarea, preprocesarea, reducerea și proiecția datelor. Următorul pas este utilizarea Data Mining (explicată mai jos) pentru a identifica modelul. În cele din urmă, cunoștințele descoperite se consolidează prin vizualizare și / sau interpretare. Începe cu dezvoltarea unei înțelegeri a domeniului aplicației și a obiectivului și apoi crearea unui set de date țintă. Urmează curățarea, preprocesarea, reducerea și proiecția datelor. Următorul pas este utilizarea Data Mining (explicată mai jos) pentru a identifica modelul. În cele din urmă, cunoștințele descoperite se consolidează prin vizualizare și / sau interpretare.

Ce este Data Mining?

După cum sa menționat mai sus, Data Mining este doar un pas în cadrul procesului general KDD. Există două obiective majore de minerit de date definite de obiectivul aplicației și anume verificarea sau descoperirea. Verificarea înseamnă verificarea ipotezei utilizatorului despre date, în timp ce descoperirea găsește automat modele interesante. Există patru sarcini majore de extragere a datelor: grupare, clasificare, regresie și asociere (rezumare). Clusterizarea este identificarea grupurilor similare din datele nestructurate. Clasificarea reprezintă reguli de învățare care pot fi aplicate noilor date. Regresia constă în găsirea funcțiilor cu erori minime la modelarea datelor. Și asocierea caută relații între variabile. Apoi, trebuie selectat algoritmul specific de extragere a datelor. În funcție de obiectiv, diferiți algoritmi precum regresia liniară, regresia logistică,arborii de decizie și Naïve Bayes pot fi selectați. Apoi sunt căutate modele de interes pentru una sau mai multe forme reprezentative. În cele din urmă, modelele sunt evaluate fie folosind precizie predictivă, fie înțelegere.

Care este diferența dintre KDD și Data mining?

Deși, cei doi termeni KDD și Data Mining sunt foarte folosiți interschimbabil, se referă la două concepte legate, dar ușor diferite. KDD este procesul general de extragere a cunoștințelor din date, în timp ce Data Mining este un pas în cadrul procesului KDD, care se ocupă cu identificarea tiparelor din date. Cu alte cuvinte, Data Mining este doar aplicarea unui algoritm specific bazat pe obiectivul general al procesului KDD.

Recomandat: