Grumbullimi hierarkik kundrejt pjesshëm
Klusterimi është një teknikë e mësimit të makinerive për analizimin e të dhënave dhe ndarjen në grupe të të dhënave të ngjashme. Këto grupe ose grupe të dhënash të ngjashme njihen si grupime. Analiza e grupimeve shikon algoritmet e grupimit që mund të identifikojnë grupet automatikisht. Hierarkike dhe Pjesore janë dy klasa të tilla të algoritmeve të grupimit. Algoritmet e grupimit hierarkik i ndajnë të dhënat në një hierarki grupimesh. Algoritmet particionale ndajnë grupin e të dhënave në ndarje reciproke të shkëputura.
Çfarë është grupimi hierarkik?
Algoritmet e grupimit hierarkik përsërisin ciklin e bashkimit të grupimeve më të vogla në ato më të mëdha ose ndarjes së grupimeve më të mëdha në ato më të vogla. Sido që të jetë, ai prodhon një hierarki grupimesh të quajtur dendogram. Strategjia e grupimit aglomerativ përdor qasjen nga poshtë-lart të bashkimit të grupimeve në ato më të mëdha, ndërsa strategjia e grupimit ndarës përdor qasjen nga lart-poshtë të ndarjes në grupe më të vogla. Në mënyrë tipike, qasja e babëzitur përdoret për të vendosur se cilat grupime më të mëdha/më të vogla përdoren për bashkim/ndarje. Distanca Euklidiane, Distanca e Manhatanit dhe ngjashmëria e kosinusit janë disa nga metrikat më të përdorura të ngjashmërisë për të dhënat numerike. Për të dhënat jo numerike, përdoren metrikë të tillë si distanca Hamming. Është e rëndësishme të theksohet se vëzhgimet (instancat) aktuale nuk janë të nevojshme për grupimin hierarkik, sepse mjafton vetëm matrica e distancave. Dendogrami është një paraqitje vizuale e grupimeve, e cila shfaq hierarkinë shumë qartë. Përdoruesi mund të marrë grupime të ndryshme në varësi të nivelit në të cilin është prerë dendogrami.
Çfarë është grupimi i pjesshëm?
Algoritmet e grupimit të pjesshëm gjenerojnë ndarje të ndryshme dhe më pas i vlerësojnë ato sipas disa kritereve. Ato quhen gjithashtu si johierarkike pasi çdo instancë vendoset saktësisht në një nga k grupet reciprokisht ekskluzive. Për shkak se vetëm një grup grupimesh është rezultati i një algoritmi tipik të grupimit të pjesshëm, përdoruesi duhet të fusë numrin e dëshiruar të grupimeve (zakonisht të quajtur k). Një nga algoritmet më të përdorura të grupimit të pjesshëm është algoritmi k-means i grupimit. Përdoruesit i kërkohet të japë numrin e grupimeve (k) përpara fillimit dhe algoritmi fillimisht inicon qendrat (ose centroidet) e ndarjeve k. Me pak fjalë, algoritmi i grupimit k-means më pas cakton anëtarë bazuar në qendrat aktuale dhe rivlerëson qendrat bazuar në anëtarët aktualë. Këto dy hapa përsëriten derisa të optimizohen një funksion i caktuar objektiv i ngjashmërisë brenda grupimeve dhe i objektivit të pangjashmërisë ndër-grupore. Prandaj, inicializimi i ndjeshëm i qendrave është një faktor shumë i rëndësishëm në marrjen e rezultateve cilësore nga algoritmet e grupimit të pjesshëm.
Cili është ndryshimi midis grupimit hierarkik dhe atij pjesor?
Klusterimi hierarkik dhe i pjesshëm kanë dallime kryesore në kohën e ekzekutimit, supozimet, parametrat e hyrjes dhe grupimet rezultante. Në mënyrë tipike, grupimi i pjesshëm është më i shpejtë se grupimi hierarkik. Grumbullimi hierarkik kërkon vetëm një masë ngjashmërie, ndërsa grupimi i pjesshëm kërkon supozime më të forta si numri i grupimeve dhe qendrat fillestare. Grumbullimi hierarkik nuk kërkon asnjë parametër hyrës, ndërsa algoritmet e grupimit të pjesshëm kërkojnë numrin e grupimeve për të filluar ekzekutimin. Grumbullimi hierarkik kthen një ndarje shumë më kuptimplote dhe subjektive të grupimeve, por grupimi i pjesshëm rezulton pikërisht në k grupime. Algoritmet e grupimit hierarkik janë më të përshtatshëm për të dhënat kategorike për sa kohë që mund të përcaktohet një masë ngjashmërie në përputhje me rrethanat.