Die hantering van uitskieters in groepe met behulp van silhoeëtanalise

Blog

Die hantering van uitskieters in groepe met behulp van silhoeëtanalise

Die werklike gegewens het dikwels baie uitstaande waardes. Die oorsaak van uitskieters kan datakorrupsie wees of versuim om data op te neem. Die hantering van uitskieters is baie belangrik tydens die data -voorverwerkingspypleiding, aangesien die teenwoordigheid van uitskieters kan voorkom dat die model die beste presteer.



Daar is verskillende strategieë om uitskieters in die datastel te hanteer. Hierdie artikel gaan oor hoe om uitskieters te hanteer nadat data gegroepeer is in verskillende groepe met behulp van Silhouette Analysis.

Silhoeëtanalise:

Die ** silhoeëtmetode ** is 'n metode om die optimale aantal trosse en interpretasie en validering van konsekwentheid binne groepe data te vind. Die silhoeëtmetode bereken silhoeëtkoëffisiënte van elke punt wat meet hoeveel 'n punt soortgelyk is aan sy eie groep in vergelyking met ander groepe. deur 'n bondige grafiese voorstelling van hoe goed elke voorwerp geklassifiseer is. Die ontleding van hierdie grafiese voorstellings word genoem Silhoeëtanalise .



Die silhoeëtwaarde is 'n maatstaf van hoe soortgelyk 'n voorwerp met sy eie groep is ( samehorigheid ) vergeleke met ander groepe ( skeiding ). Die waarde van die silhoeët wissel tussen [1, -1].

Important Points: The Silhouette coefficient of +1 indicates that the sample is far away from the neighboring clusters. The Silhouette coefficient of 0 indicates that the sample is on or very close to the decision boundary between two neighboring clusters. Silhouette coefficient <0 indicates that those samples might have been assigned to the wrong cluster or are outliers.

#opvoeding #kunsmatige intelligensie #data-wetenskap #masjienleer #clustering



towardsdatascience.com

Die hantering van uitskieters in groepe met behulp van silhoeëtanalise

Identifiseer en verwyder uitskieters in elke groepe uit K-Means-groepering. Hierdie artikel gaan oor hoe om uitskieters te hanteer nadat data gegroepeer is in verskillende groepe met behulp van Silhouette Analysis.