درختان تصمیم اغلب هنگام اجرای الگوریتم های یادگیری ماشین استفاده می شوند. ساختار سلسله مراتبی درخت تصمیم ما را با عبور از گره های درخت به نتیجه نهایی می رساند. هر گره از یک ویژگی یا ویژگی تشکیل شده است که با حرکت به سمت پایین درخت به گره های بیشتری تقسیم می شود. اما چگونه تصمیم بگیریم:
- کدام ویژگی/ویژگی باید در گره ریشه قرار گیرد؟
- کدام ویژگی به عنوان گره داخلی یا گره برگ عمل می کند؟
برای تصمیم گیری در این مورد، و نحوه تقسیم درخت، از معیارهای تقسیم مانند جینی Index، Information Gain و غیره استفاده می کنیم. در این وبلاگ، همه چیز را در مورد شاخص Gini، از جمله استفاده از Gini Index برای تقسیم درخت تصمیم، یاد خواهیم گرفت.
همه چیز را با این وبلاگ بیابید که شامل موارد زیر است:
شاخص جینی چیست؟
شاخص جینی یا ناخالصی جینی درجه یا احتمال دسته بندی اشتباه یک متغیر خاص را در صورت انتخاب تصادفی اندازه گیری می کند.
اما در واقع منظور از «ناخالصی» چیست؟
اگر همه عناصر متعلق به یک کلاس واحد باشند، می توان آن را خالص نامید. درجه شاخص جینی بین 0 تا 1 متغیر است،
که در آن، '0' نشان می دهد که همه عناصر به یک کلاس خاص تعلق دارند یا فقط یک کلاس وجود دارد (خالص)، و '1' نشان می دهد که عناصر به طور تصادفی در بین کلاس های مختلف توزیع شده اند (ناخالص).
شاخص جینی 0. 5 نشان دهنده عناصری است که به طور مساوی در برخی از کلاس ها توزیع شده اند.
اصطلاحات مشابه شاخص جینی برای اجرای تکنیک درخت تصمیم
در حال بررسی مولفه های مشابه شاخص جینی هستیم تا نقش شاخص جینی در اجرای تکنیک درخت تصمیم واضح تر شود.
ماهیت درختهای تصمیم در تقسیم کل مجموعه داده به یک ساختار اطلاعاتی عمودی درخت مانند است تا بخشهای مختلف اطلاعات با گرههای ریشه در بالا تقسیم شوند.
در مدل درخت تصمیم، هر گره یک ویژگی یا ویژگی است که حاوی اطلاعات لازم (به صورت متوالی به سمت پایین) برای مدل درخت تصمیم است. این نکات ضروری است که هنگام تصمیم گیری برای هر گره از مدل درخت تصمیم باید در نظر داشته باشید:
- کدام ویژگی باید در گره ریشه قرار گیرد که درخت تصمیم از آنجا شروع می شود. این اطلاعات در گره ریشه باید پایه کل اطلاعات آینده باشد. برای مثال، اگر بخواهیم مدل درخت تصمیم را برای یک سهام ایجاد کنیم، میتوانیم داده (OHLCV) سهام را در گره ریشه ذکر کنیم.
- تصمیم گیری در مورد دقیق ترین ویژگی ها برای خدمت به عنوان گره های داخلی (به صورت عمودی از درخت) ، همچنین به عنوان گره های برگ شناخته می شود.
با آمدن به اصطلاحات دیگر که منجر به اجرای تکنیک درخت تصمیم گیری ، مشابه شاخص جینی می شود ، اینها به شرح زیر است:
- اقدامات تقسیم
- اطلاعات
اقدامات تقسیم
با شرکت بیش از یک ویژگی در فرایند تصمیم گیری ، تصمیم گیری در مورد ارتباط و اهمیت هر یک از ویژگی ها لازم است. بنابراین ، قرار دادن مهمترین ویژگی در گره ریشه و عبور بیشتر با تقسیم گره ها.
هرچه بیشتر به پایین درخت حرکت می کنیم ، سطح ناخالصی یا عدم اطمینان کاهش می یابد ، بنابراین منجر به طبقه بندی بهتر یا بهترین تقسیم در هر گره می شود. از اقدامات تقسیم شده مانند افزایش اطلاعات ، شاخص جینی و غیره برای تصمیم گیری در مورد همان استفاده می شود.
اطلاعات
از افزایش اطلاعات برای تعیین اینکه کدام ویژگی/ویژگی حداکثر اطلاعات مربوط به یک کلاس را به ما می دهد ، استفاده می شود.
- افزایش اطلاعات مبتنی بر مفهوم آنتروپی است که میزان عدم اطمینان ، ناخالصی یا اختلال است.
- افزایش اطلاعات با هدف کاهش سطح آنتروپی که از گره ریشه به گره های برگ شروع می شود.
ارتباط آنتروپی
آنتروپی اندازه گیری اختلال یا اندازه گیری ناخالصی در یک مجموعه داده است. شاخص جینی ابزاری است که هدف آن کاهش سطح آنتروپی از مجموعه داده است.
به عبارت دیگر ، آنتروپی اندازه گیری ناخالصی است یا می توان گفت تصادفی در مقادیر مجموعه داده است.
یک اختلال کم (بدون اختلال) حاکی از سطح پایین ناخالصی است. آنتروپی بین 0 تا 1 محاسبه می شود. تعداد "1" نشان دهنده سطح بالاتری از اختلال یا ناخالصی بیشتر است.
اگرچه تعداد دیگری از گروه ها یا کلاس های موجود در مجموعه داده وجود دارد که می تواند بیشتر از 1. باشد. در مورد یادگیری ماشین (و درختان تصمیم گیری) ، 1 نشان دهنده همان معنی است ، یعنی سطح بالاتر اختلال و همچنین باعث می شودتفسیر ساده است. از این رو ، مدل درخت تصمیم گیری سطح بیشتری از اختلال را به عنوان 1 طبقه بندی می کند.
آنتروپی معمولاً کمترین اختلال است (بدون اختلال) به معنای پایین بودن ناخالصی و اختلال بالاتر (حداکثر اختلال) به این معنی است که سطح بالایی از ناخالصی وجود دارد. آنتروپی برای کاهش عدم اطمینان ناشی از ناخالصی بیشتر اندازه گیری می شود.
در تصویر زیر می توانید یک شکل "U" معکوس را نشان دهید که نشان دهنده تنوع آنتروپی در نمودار است. در تصویر ، محور X نشان دهنده مقادیر داده است و محور y مقدار آنتروپی را نشان می دهد.
تغییر آنتروپی در برابر نقاط داده
نمودار بالا نشان می دهد که آنتروپی کمترین (بدون بی نظمی) در دو انتها (هر دو سمت چپ و راست) و حداکثر (بی نظمی بالا) در وسط نمودار یا در منحنی شکل "U" معکوس است.
بنابراین، در هر دو حد (چپ و راست)، آنتروپی (ناخالصی) وجود ندارد زیرا هر طبقه دارای تمام عناصر متعلق به آن طبقه است. از طرف دیگر، در وسط، خط آنتروپی به بالاترین نقطه کشیده می شود تا یک شکل "U" ایجاد کند که در آن همه عناصر از دو کلاس به طور تصادفی توزیع شده اند که به معنای وجود آنتروپی (ناخالصی) است.
از مشاهدات ما مشخص است که هر دو حد (چپ و راست) خالص و بدون آنتروپی هستند.
فرمول آنتروپی
فرمول آنتروپی برای یافتن عدم قطعیت یا اختلال زیاد به شرح زیر است:
$$E(S) = \sum_^c - p_i log_2 p_i$$
که در آن "p" نشان دهنده احتمال آنتروپی و E(S) نشان دهنده آنتروپی است.
فرمول شاخص جینی
فرمول شاخص جینی به شرح زیر است:
که در آن، 'pi' احتمال طبقه بندی یک شی به یک کلاس خاص است.
هنگام ساخت درخت تصمیم، ترجیح می دهیم ویژگی/ویژگی با کمترین شاخص جینی را به عنوان گره ریشه انتخاب کنیم.
نمونه ای از شاخص جینی
اکنون نمونه ای از شاخص جینی را برای معاملات مشاهده می کنیم. ما به مدل درخت تصمیم مجموعه خاصی از داده ها داده می شود که برای ماشین قابل خواندن است.
حال، اجازه دهید شاخص جینی را برای روند گذشته، سود باز، حجم معاملات و بازده به روش زیر با داده های مثال محاسبه کنیم: