Clustering
Clustering is een techniek in de data-analyse waarbij gegevens worden gegroepeerd op basis van hun onderlinge gelijkenissen. Het doel van clustering is om een set van gegevens op te delen in verschillende groepen (clusters) zodat de gegevens binnen elke groep meer op elkaar lijken dan op de gegevens in andere groepen.
Een voorbeeld van clustering is het groeperen van klanten van een supermarkt op basis van hun aankoopgedrag. Een clustering algoritme zou kunnen worden gebruikt om klanten te groeperen die vaak dezelfde producten kopen of in dezelfde gangpaden winkelen. Dit kan waardevolle informatie opleveren voor de marketingafdeling, die deze informatie kan gebruiken om gerichte advertenties en aanbiedingen te maken voor elke groep klanten.
Een clustering algoritme
Een veelgebruikt clustering algoritme is k-means clustering, waarbij het aantal clusters vooraf wordt bepaald. Het doel is om elk datapunt in de dataset te groeperen in een van de k clusters op basis van hun onderlinge afstand. Het algoritme berekent het gemiddelde van alle datapunten in elke cluster en past dit gemiddelde aan totdat er geen verandering meer is. Dit resulteert in een set clusters die elk bestaan uit datapunten die meer op elkaar lijken dan op de datapunten in andere clusters.