سلسله مراتب در مقابل خوشه بندی جزئی

خوشه بندی یک روش یادگیری ماشین برای تجزیه و تحلیل داده ها و تقسیم بندی به گروه های داده های مشابه است. این گروه ها یا مجموعه ای از داده های مشابه به عنوان خوشه شناخته می شوند. تجزیه و تحلیل خوشه ای به الگوریتم های خوشه بندی می پردازد که می توانند خوشه ها را بطور خودکار شناسایی کنند. سلسله مراتبی و جزئی دو کلاس از الگوریتم های خوشه بندی هستند. الگوریتم های خوشه بندی سلسله مراتبی داده ها را به سلسله مراتبی از خوشه ها تجزیه می کنند. الگوریتم های اولیه داده های مجموعه را به پارتیشن های متفرقه تقسیم می کنند.

خوشه بندی سلسله مراتبی چیست؟

الگوریتم های خوشه بندی سلسله مراتبی چرخه یا ادغام خوشه های کوچکتر را به بزرگترها یا تقسیم خوشه های بزرگتر به کوچکترها تکرار می کنند. در هر صورت ، سلسله مراتبی از خوشه ها به نام دندوگرام را ایجاد می کند. استراتژی خوشه بندی Agglomerative از رویکرد از پایین به بالا برای ادغام خوشه ها به بزرگترها استفاده می کند ، در حالی که استراتژی خوشه بندی تقسیم کننده از رویکرد بالا به پایین تقسیم به موارد کوچکتر استفاده می کند. به طور معمول ، از روش حریص در تصمیم گیری استفاده می شود که از خوشه های بزرگتر / کوچکتر برای ادغام / تقسیم استفاده می شود. فاصله اقلیدسی ، فاصله منهتن و شباهت کسین برخی از معیارهای متداول از شباهت برای داده های عددی هستند. برای داده های غیر عددی ، از معیارهایی مانند فاصله Hamming استفاده می شود. توجه به این نکته ضروری است که مشاهدات واقعی (موارد) برای خوشه بندی سلسله مراتبی مورد نیاز نیست ، زیرا فقط ماتریس مسافت کافی است. دندوگرام بازنمایی بصری از خوشه ها است که سلسله مراتب را به وضوح نشان می دهد. کاربر می تواند بسته به میزان کاهش دندوگرام ، خوشه های مختلفی را بدست آورد.

خوشه بندی جزئی چیست؟

الگوریتم های خوشه بندی جزئی پارتیشن های مختلفی تولید می کنند و سپس آنها را با معیار ارزیابی می کنند. آنها همچنین به عنوان غیر سلسله مراتبی گفته می شوند زیرا هر نمونه دقیقاً در یکی از خوشه های متقابل k قرار می گیرد. از آنجا که تنها یک مجموعه خوشه ها خروجی یک الگوریتم خوشهبندی جزئی معمولی است ، از کاربر خواسته می شود تعداد دلخواه خوشه ها را وارد کند (معمولاً به نام k). یکی از رایج ترین الگوریتم های خوشه بندی جزئی ، الگوریتم خوشه بندی k-معنی است. کاربر موظف است قبل از شروع به کار تعداد خوشه ها (k) را ارائه دهد و الگوریتم ابتدا مراکز (یا سانتریفیوژ) پارتیشن های k را آغاز می کند. به طور خلاصه ، الگوریتم خوشه بندی k-значи سپس اعضا را بر اساس مراکز فعلی و مراکز مجدداً بر اساس اعضای فعلی ، مجدداً اختصاص می دهد. این دو مرحله تکرار می شوند تا یک تابع هدف مشابهت درون خوشه خاص و عملکرد هدف تمایز بین خوشه ای بهینه شوند. بنابراین ، اولیه سازی معقول مراکز عامل بسیار مهمی در بدست آوردن نتایج کیفی از الگوریتم های خوشه بندی جزئی است.

تفاوت بین خوشه‌بندی سلسله مراتبی و جزئی چیست؟

خوشه بندی سلسله مراتبی و جزئی تفاوتهای اساسی در زمان اجرا ، فرضیات ، پارامترهای ورودی و خوشه های حاصل دارد. به طور معمول ، خوشه بندی جزئی سریعتر از خوشه بندی سلسله مراتبی است. خوشه بندی سلسله مراتبی فقط به یک اندازه گیری شباهت نیاز دارد ، در حالی که خوشه بندی جزئی نیاز به فرضیات قوی تر مانند تعداد خوشه ها و مراکز اولیه دارد. خوشه بندی سلسله مراتبی به هیچ پارامتر ورودی احتیاج ندارد ، در حالی که الگوریتم های خوشه بندی جزئی به تعداد خوشه ها برای شروع کار نیاز دارند. خوشه بندی سلسله مراتبی تقسیم بسیار معنی دار تر و ذهنی تر از خوشه ها را نشان می دهد اما خوشه بندی جزئی جزئی در دقیقاً خوشه های K است. الگوریتم های خوشه بندی سلسله مراتبی برای داده های دسته بندی مناسب تر هستند تا زمانی که می توان یک اندازه گیری تشابه را بر این اساس تعریف کرد.