منبع علمی مقاله —d1202

4.تبدیل داده‌ها: تبدیل یا ترکیب داده‌ها به اشکالی که برای بکار بردن در داده‌کاوی مناسب باشند.
5.داده‌کاوی: روش‌های مختلف را برای استخراج الگو استفاده می‌کند.
6.ارزیابی الگو: الگوهای مناسب برای ارائه دانش را بر اساس معیارهای مشخص شناسایی می‌کند.
7.ارائه دانش: دانش کشف شده را با استفاده از روش‌های نمایش اطلاعات نشان می‌دهد.
-590552204085شکل 2- SEQ شکل_2- \* ARABIC 1: فرآیند داده‌کاوی و کشف دانش00شکل 2- SEQ شکل_2- \* ARABIC 1: فرآیند داده‌کاوی و کشف دانش10096595250داده کاوی
داده‌های
خام
داده‌های
هدف
پاک‌سازی
داده‌ها
ارائه دانش
الگوها
یکپارچگی
داده‌ها
تبدیل داده‌ها
پیش پردازش داده‌ها
تشخیص الگو
00داده کاوی
داده‌های
خام
داده‌های
هدف
پاک‌سازی
داده‌ها
ارائه دانش
الگوها
یکپارچگی
داده‌ها
تبدیل داده‌ها
پیش پردازش داده‌ها
تشخیص الگو

داده‌کاوی از دو مرحله اصلی تشکیل شده است؛ مرحله اول پیش پردازش داده‌ها که در این مرحله خصیصه‌های با تأثیر بالاتر از داده‌های سطح پایین استخراج می‌شود. مرحله دوم تشخیص الگو می‌باشد که به کشف الگوی موجود در داده‌ها به کمک صفات و خصیصه‌های بدست آمده می‌پردازد.
داده‌کاوی را می‌توان سیر تکاملی طبیعی تکنولوژی اطلاعات دانست، که این سیر تکاملی ناشی از یک بلوغ در صنعت پایگاه داده نظیر: عملیات جمع‌آوری داده‌ها و ایجاد پایگاه داده، مدیریت داده و تحلیل و فهم داده می‌باشد.
داده کاوی تحلیل داده‌های قابل مشاهده برای کشف ارتباطات غیرمنتظره و خلاصه کردن داده‌ها به صورتی بدیع است که برای دارنده‌ی اطلاعات مفید و قابل درک باشد ADDIN EN.CITE <EndNote><Cite><Author>Hong</Author><Year>2009</Year><RecNum>4</RecNum><DisplayText>[16]</DisplayText><record><rec-number>4</rec-number><foreign-keys><key app="EN" db-id="92s9f5r5x0rwr7ezx935zxfnpxazas09a9dd">4</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Hong, Tzung-Pei</author><author>Wu, Yi-Ying</author><author>Wang, Shyue-Liang</author></authors></contributors><titles><title>An effective mining approach for up-to-date patterns</title><secondary-title>Expert sys--s with applications</secondary-title></titles><periodical><full-title>Expert sys--s with applications</full-title></periodical><pages>9747-9752</pages><volume>36</volume><number>6</number><dates><year>2009</year></dates><isbn>0957-4174</isbn><urls></urls></record></Cite></EndNote>[16]. کاوش اطلاعات، حجم عظیمی از داده‌های خام را به فرمی تغییر می‌دهد که انسان بتواند آن‌ها را به راحتی بفهمد و برای تصمیم گیری بتواند از این اطلاعات استفاده کند. در مسائل داده کاوی، هر چه حجم داده‌ها بیشتر می‌شود، میل بیشتری برای کشف الگوهای مخفی در داده‌ها به وجود می‌آید. در قدم اصلی داده کاوی ممکن است از چندین الگوریتم داده کاوی استفاده شود. کار اصلی الگوریتم داده کاوی با توجه به نوع مسئله‌ی کشف دانش تغییر می‌کند اما دو نوع اصلی الگوریتم‌های داده کاوی، دسته‌بندی و خوشه‌بندی است.
اصلی‌ترین دلیلی که باعث شد داده کاوی در علوم پزشکی مورد توجه بسیاری قرار بگیرد، مسأله در دسترس بودن حجم وسیعی از داده‌ها و نیاز شدید به اینکه از این داده‌ها، اطلاعات و دانش استخراج شود. داده‌کاوی عبارت است از استخراج دانش از مجموعه‌ای از داده‌ها.
2-3- دسته‌بندیهرگاه داده‌ها دارای خصیصه‌ای خاص باشند که مستقیماً از دیگر خصایص به وجود نیامده باشد اما بین آن مشخصه و دیگر ابعاد رابطه وابستگی وجود داشته باشد، در این صورت می‌توان با کشف مدلی بر اساس دیگر مشخصه‌ها، آن بعد مذکور (که نشان دهنده دسته خاصی از داده‌ها است) را شناسایی نمود. فرض کنید که مشخصات تعدادی بیمار در پایگاه داده‌ای وجود دارد که قبلاً با استفاده از آزمایش خاص دو نوع بیماری مشخص شده که هر‌کدام از این بیماران به کدام بیماری مبتلا هستند، در این جا هیچ فردی حق ندارد هر دو بیماری را داشته باشد، سالم بوده و یا بیماری دیگری داشته باشد، به این معنی که دسته‌ها فضای مسئله را افراز می‌کند. در چنین پایگاه داده‌هایی برای هر بیمار یک رکورد خاص وجود دارد که شامل علائم بیمار و در نهایت نام یا برچسب بیماری که بیمار به آن مبتلا شده است می‌باشد. یک داده کاو تصمیم می‌گیرد سیستمی را ابداع کند که طی آن بدون آزمایش و فقط از روی علائم بیمار بتوان نوع بیماری وی را تشخیص داد. این تصمیم ممکن است به هر دلیلی مثلاً کمبود امکانات صورت گرفته باشد. آنچه باید انجام شود عملیات دسته بندی نامیده می‌شود. هدف دسته‌بندی؛ آموزش یک نگاشت از ورودی‌های x به خروجی‌های y است، که در آن ، C تعداد کلاس‌ها را مشخص می‌کند. اگر C=2 دسته‌بندی را دسته‌بندی دودویی می‌نامیم ()، اگر C>2 باشد، این نوع دسته‌بندی را دسته‌بندی چند کلاسه می‌نامیم ADDIN EN.CITE <EndNote><Cite><Author>Murphy</Author><Year>2012</Year><RecNum>6</RecNum><DisplayText>[17]</DisplayText><record><rec-number>6</rec-number><foreign-keys><key app="EN" db-id="92s9f5r5x0rwr7ezx935zxfnpxazas09a9dd">6</key></foreign-keys><ref-type name="Book">6</ref-type><contributors><authors><author>Kevin P. Murphy</author></authors></contributors><titles><title>Machine Learning: A Probabilistic Perspective</title></titles><pages>3</pages><dates><year>2012</year></dates><publisher>The MIT Press</publisher><isbn>0262018020, 9780262018029</isbn><urls></urls></record></Cite></EndNote>[17].
دسته‌بندی داده‌ها یک فرآیند دو مرحله‌ای است. اولین مرحله ساخت مدل و دومین مرحله استفاده از مدل و پیش‌بینی کلاس از طریق مدل ساخته شده است. برای این منظور باید مجموعه داده‌ها را به دو دسته داده‌های آموزش و داده‌های تست تقسیم کنیم. با استفاده از داده‌هایی که برچسب آموزش خورده‌اند یک دسته‌بند ایجاد می‌شود که بر اساس آن بتوان داده‌های فاقد برچسب را در دسته‌های مربوط به خودشان قرار داد. کارایی دسته‌بند ساخته شده با داده‌های تست (که به صورت تصادفی از میان داده‌ها انتخاب شده‌اند) مورد سنجش قرار می‌گیرد و مدل روی آن‌ها اجرا می‌شود تا دقت پیش بینی دسته‌بند بررسی گردد، چنان که مدل دارای دقت مناسبی باشد برای دسته‌بندی داده‌ها به کار می‌رود.
در دسته‌بندی یادگیری به وسیله نمونه‌ها انجام می‌گیرید و برچسب هر یک از دسته‌ها مشخص است. سپس نمونه‌ها بر حسب ویژگی‌هایشان به دسته‌های از قبل مشخص شده، تخصیص داده می‌شوند. در حالی که در خوشه‌بندی داده‌ها به خوشه‌های مختلف که از قبل معین نیستند تقسیم می‌شوند، بر این اساس که داده‌های درون خوشه مشابه و داده‌های خوشه‌های مختلف متفاوت باشند. خوشه بندی به فرآیند تقسیم بندی داده به یک یا چند گروه به طوری که فاصله‌ی بین خوشه‌ها حداکثر و فاصله‌ی درون خوشه‌ها حداقل باشد، اطلاق می‌شود.
2-4- الگوریتم‌های رایج دسته‌بندیروش‌های زیادی برای دسته‌بندی وجود دارد که از جمله می‌توان به مواردی که در ادامه به آن‌ها اشاره می‌شود اشاره کرد:
شبکه‌های عصبی مصنوعی
درخت‌های تصمیم
شبکه‌های بیزین
k نزدیک‌ترین همسایه
ماشین بردار پشتیبان
روش‌های مبتنی بر قانون
2-4-1- شبکه‌های عصبی مصنوعیمطالعه شبکه‌های عصبی مصنوعی تا حد زیادی الهام گرفته از سیستم‌های یادگیر طبیعی است که در آن‌ها یک مجموعه پیچیده از نرون‌های به هم متصل در کار یادگیری دخیل هستند. گمان می‌رود که مغز انسان از تعداد 1011 نرون تشکیل شده باشد که هر نرون با تقریباً 104 نرون دیگر در ارتباط است. سرعت انتقال نرون‌ها در حدود 10-3 ثانیه است که در مقایسه با کامپیوترها ( 10-10 ثانیه) بسیار ناچیز می‌نماید. با این وجود آدمی قادر است در 0.1 ثانیه تصویر یک انسان را باز شناسائی نماید. این قدرت فوق‌العاده باید از پردازش موازی توزیع شده در تعدادی زیادی از نرون‌ها حاصل شده باشد ADDIN EN.CITE <EndNote><Cite><Author>Haykin</Author><Year>2007</Year><RecNum>7</RecNum><DisplayText>[18]</DisplayText><record><rec-number>7</rec-number><foreign-keys><key app="EN" db-id="92s9f5r5x0rwr7ezx935zxfnpxazas09a9dd">7</key></foreign-keys><ref-type name="Book">6</ref-type><contributors><authors><author>Haykin, Simon S</author></authors></contributors><titles><title>Neural networks: a comprehensive foundation</title></titles><pages>28-32</pages><dates><year>2007</year></dates><publisher>Prentice Hall Englewood Cliffs NJ</publisher><isbn>0131471392</isbn><urls></urls></record></Cite></EndNote>[18].
این شبکه‌ها یادگیری را از روی مثال‌ها و نمونه‌ها انجام می‌دهند و از این لحاظ در عمل یادگیری شبیه به انسان عمل می‌کنند. مزیت دیگر آن‌ها این است که این شبکه‌ها از توانایی تعمیم دهی ذاتی برخوردار هستند؛ یعنی این شبکه‌ها توانایی تشخیص الگوهایی را که شبیه نمونه‌هایی که قبلاً یاد گرفته باشد را دارد نه اینکه تنها الگوهای دقیقاً همانند نمونه‌های آموزشی را تشخیص دهد ADDIN EN.CITE <EndNote><Cite><Author>Benardos</Author><Year>2007</Year><RecNum>8</RecNum><DisplayText>[19]</DisplayText><record><rec-number>8</rec-number><foreign-keys><key app="EN" db-id="92s9f5r5x0rwr7ezx935zxfnpxazas09a9dd">8</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Benardos, PG</author><author>Vosniakos, G-C</author></authors></contributors><titles><title>Optimizing feedforward artificial neural network architecture</title><secondary-title>Engineering Applications of Artificial Intelligence</secondary-title></titles><periodical><full-title>Engineering Applications of Artificial Intelligence</full-title></periodical><pages>365-382</pages><volume>20</volume><number>3</number><dates><year>2007</year></dates><isbn>0952-1976</isbn><urls></urls></record></Cite></EndNote>[19].
شبکه عصبی مصنوعی روشی عملی برای یادگیری توابع گوناگون نظیر توابع با مقادیر حقیقی، توابع با مقادیر گسسته و توابع با مقادیر برداری می‌باشد. یک نرون به تنهایی فقط می‌تواند برای شناسایی توابعی که به صورت خطی تفکیک پذیرند بکار رود، از آنجا که در مسائل واقعی عموماً توابع به صورت خطی جدایی پذیر نیستند شبکه‌ای از نرون‌ها مورد نیاز می‌باشد.
انواع شبکه‌های عصبی برای حل مسائل مختلف یادگیری بانظارت، یادگیری بدون نظارت و یادگیری تقویتی استفاده می‌شوند. شبکه‌های عصبی بر حسب انواع اتصالات به دو نوع رو به جلو FNN و بازگشتی RNN تقسیم می‌شوند. FNN ها معمول‌ترین نوع شبکه‌های عصبی است که در کاربردهای مختلف استفاده می‌شوند. لایه اول لایه ورودی نامیده می‌شود و لایه آخر لایه خروجی است و هر تعداد لایه میان این دو لایه را لایه‌های میانی یا مخفی می‌نامند زیرا در عمل ما تنها با ورودی و خروجی‌های شبکه عصبی کار داریم. شبکه عصبی به صورت یک جعبه سیاه کار می‌کند و دسترسی مستقیم به لایه‌های میانی میسّر نیست. شبکه‌های عصبی بازگشتی دارای چرخه‌های جهت‌دار در ساختار گراف‌های ارتباطشان هستند یعنی با دنبال کردن ارتباطات بین گره‌ها می‌توان به گره‌ها قبلی و آغازین بازگشت. RNN ها با توجه به ساختارشان دینامیک پیچیده‌ای دارند و این امر آموزش این شبکه‌ها را بسیار پیچیده می‌کند. ضمن اینکه از لحاظ بیولوژیکی شبکه‌های عصبی بازگشتی به واقعیت نزدیک‌تر هستند.
شبکه‌های FNN با بیش از یک لایه مخفی را MLP و شبکه‌های FNN با یک لایه مخفی را SLP می‌نامیم و در آن خروجی نرون‌ها در هر لایه تابعی غیر خطی از خروجی‌های لایه‌های قبلی است. تعداد نرون‌های لایه ورودی و خروجی ثابت است، تعداد نرون‌های لایه ورودی برابر با فضای مشخصه‌ها و تعداد نرون‌های لایه خروجی با توجه به تعداد کلاس‌ها مشخص می‌شود. در MLP گره‌ها (نرون‌ها) معمولاً در لایه‌هایی در شبکه عصبی مرتب می‌شوند هر گره تنها ورودی‌هایی از لایه قبل دریافت می‌کند و تابعی از ورودی‌ها را ارائه می‌دهد.
100076031115لایه ورودی
لایه مخفی
لایه خروجی
فضای خصیصه‌ها
تعداد کلاس‌ها
00لایه ورودی
لایه مخفی
لایه خروجی
فضای خصیصه‌ها
تعداد کلاس‌ها
10007602163445شکل 2- SEQ شکل_2- \* ARABIC 2: ساختار SLP [20]
00شکل 2- SEQ شکل_2- \* ARABIC 2: ساختار SLP [20]

هر واحد یک خروجی را منتشر می‌کند که تابعی غیر خطی از مقادیر ورودی است ADDIN EN.CITE <EndNote><Cite><Author>Zhang</Author><Year>2000</Year><RecNum>13</RecNum><DisplayText>[20]</DisplayText><record><rec-number>13</rec-number><foreign-keys><key app="EN" db-id="92s9f5r5x0rwr7ezx935zxfnpxazas09a9dd">13</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Zhang, Guoqiang Peter</author></authors></contributors><titles><title>Neural networks for classification: a survey</title><secondary-title>Sys--s, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on</secondary-title></titles><periodical><full-title>Sys--s, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on</full-title></periodical><pages>451-462</pages><volume>30</volume><number>4</number><dates><year>2000</year></dates><isbn>1094-6977</isbn><urls></urls></record></Cite></EndNote>[20]. f تابع فعال‌سازی است که بر روی مجموع ضرب وزن‌ها در ورودی‌های هر گره اعمال می‌گردد. معروف‌ترین تابع فعال‌سازی که در شبکه‌های عصبی استفاده می‌شود تابع سیگموئید یا لجستیک نام دارد که در آن؛
(2-1)
رفتار شبکه عصبی با توجه به مقادیر وزن‌های آن تعیین می‌شود. شبکه عصبی بهترین مقادیر وزن‌ها و بایاس‌ها را با توجه به مجموعه داده موجود یاد می‌گیرد، در واقع آموزش شبکه عصبی شامل تنظیم وزن‌ها و بایاس‌ها تا موقعی که شرایط مشخصی برآورده گردد می‌شود. تنظیم وزن‌ها به گونه‌ای صورت می‌گیرد که میزان خطا میان خروجی مطلوب و خروجی شبکه عصبی را کاهش دهد.
688340-33020Net j
f(Netj)
yj
X1
X2
Xd

Node j
b=1
wj1
wj2
wjd
wj0
00Net j
f(Netj)
yj
X1
X2
Xd

Node j
b=1
wj1
wj2
wjd
wj0

702310356235شکل 2- SEQ شکل_2- \* ARABIC 3: ساختار یک نرون (گره) [20]
00شکل 2- SEQ شکل_2- \* ARABIC 3: ساختار یک نرون (گره) [20]

برای آموزش (تعیین وزن‌ها و بایاس‌ها) شبکه عصبی FNN دو راه وجود دارد: روش‌های کلاسیک مانند الگوریتم انتشار به عقب (BP) و روش‌های بهینه‌سازی هوشمند مانند الگوریتم ژنتیک و الگوریتم بهینه‌سازی ازدحام ذرات PSO.
روش BP بر پایه گرادیان نزولی در فضای خطا است که دارای قابلیت جستجوی محلی می‌باشد. اصلاح وزن‌های شبکه عصبی به گونه‌ای صورت می‌گیرد که در هر دور خطای میان خروجی مطلوب و خروجی شبکه عصبی کاهش یابد. این خطا به صورت زیر تعریف می‌شود:
(2-2)
به این صورت خطا برای مجموع n نمونه آموزشی محاسبه می‌گردد. خروجی مطلوب و خروجی شبکه عصبی می‌باشد. قدرت الگوریتم BP در قابلیت محاسبه خطای موثر برای هر واحد مخفی است. نهایتاً هر یک از وزن‌ها در دور m+1 به صورت زیر تغییر می‌کند:
(2-3)
(2-4)
در رابطه (2-4) نرخ یادگیری و اختلاف میان خروجی مطلوب و خروجی شبکه عصبی است. در روش‌های مبتنی بر گرادیان نزولی مانند BP ممکن است همگرا شدن به یک مقدار مینیمم زمان زیادی لازم داشته باشد. همچنین در این روش‌ها اگر در سطح خطا چندین مینیمم محلی وجود داشته باشد تضمینی وجود ندارد که الگوریتم بتواند مینیمم مطلق را پیدا بکند ADDIN EN.CITE <EndNote><Cite><Author>Engelbrecht</Author><Year>2007</Year><RecNum>14</RecNum><DisplayText>[21]</DisplayText><record><rec-number>14</rec-number><foreign-keys><key app="EN" db-id="92s9f5r5x0rwr7ezx935zxfnpxazas09a9dd">14</key></foreign-keys><ref-type name="Book">6</ref-type><contributors><authors><author>Engelbrecht, Andries P</author></authors></contributors><titles><title>Computational intelligence: an introduction</title></titles><dates><year>2007</year></dates><publisher>Wiley</publisher><isbn>0470512504</isbn><urls></urls></record></Cite></EndNote>[21].
روش‌های تکاملی برای اجتناب از گیر افتادن در مینیمم محلی و افزایش قدرت تعمیم دهی که از نقاط ضعف الگوریتم‌های مبتنی بر گرادیان نزولی برای آموزش شبکه عصبی بود بکار گرفته شدند. در این روش‌ها ابتدا جمعیت اولیه به صورت از پیش تعریف شده یا تصادفی مشخص می‌شود. هر یک از اعضای جمعیت یکی از راه‌حل‌های بالقوه است که الگوریتم تکاملی مورد نظر در طول دوره‌های مختلف فضای مسأله را جستجو و جمعیت را به سمت نقطه بهینه که کارایی را بهبود می‌دهد حرکت می‌دهد ADDIN EN.CITE <EndNote><Cite><Author>Jin</Author><Year>2012</Year><RecNum>11</RecNum><DisplayText>[22]</DisplayText><record><rec-number>11</rec-number><foreign-keys><key app="EN" db-id="92s9f5r5x0rwr7ezx935zxfnpxazas09a9dd">11</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Jin, Cong</author><author>Jin, Shu-Wei</author><author>Qin, Li-Na</author></authors></contributors><titles><title>Attribute selection method based on a hybrid BPNN and PSO algorithms</title><secondary-title>Applied Soft Computing</secondary-title></titles><periodical><full-title>Applied Soft Computing</full-title></periodical><pages>2147-2155</pages><volume>12</volume><number>8</number><dates><year>2012</year></dates><isbn>1568-4946</isbn><urls></urls></record></Cite></EndNote>[22].
2-4-2- درخت‌های تصمیمدرخت‌های تصمیم از بالا به پایین یکی از الگوریتم‌های رایج دسته‌بندی می‌باشند ADDIN EN.CITE <EndNote><Cite><Author>Quinlan</Author><Year>1993</Year><RecNum>12</RecNum><DisplayText>[23]</DisplayText><record><rec-number>12</rec-number><foreign-keys><key app="EN" db-id="92s9f5r5x0rwr7ezx935zxfnpxazas09a9dd">12</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Quinlan, J Ross</author></authors></contributors><titles><title>C4. 5: Programs for machine learning (morgan kaufmann series in machine learning)</title><secondary-title>Morgan Kaufmann</secondary-title></titles><periodical><full-title>Morgan Kaufmann</full-title></periodical><dates><year>1993</year></dates><urls></urls></record></Cite></EndNote>[23]. از مهم‌ترین دلایل رایج بودن این الگوریتم شفافیت و قابلیت تفسیر بالای این الگویتم است. مزیت دیگر موجود بودن پیاده‌سازی‌های قوی نظیر C4.5 است. الگوریتم‌های درخت‌های تصمیم با ساخت یک الگوریتم از بالا به پایین توسط انتخاب صفت در هر لحظه و جداسازی داده‌ها با توجه به مقادیر صفتشان انجام می‌شود ADDIN EN.CITE <EndNote><Cite><Author>Quinlan</Author><Year>1993</Year><RecNum>12</RecNum><DisplayText>[23]</DisplayText><record><rec-number>12</rec-number><foreign-keys><key app="EN" db-id="92s9f5r5x0rwr7ezx935zxfnpxazas09a9dd">12</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Quinlan, J Ross</author></authors></contributors><titles><title>C4. 5: Programs for machine learning (morgan kaufmann series in machine learning)</title><secondary-title>Morgan Kaufmann</secondary-title></titles><periodical><full-title>Morgan Kaufmann</full-title></periodical><dates><year>1993</year></dates><urls></urls></record></Cite></EndNote>[23]. مهم‌ترین صفت به عنوان ریشه درخت و بقیه گره‌ها نیز به ترتیب اولویت در سطح‌های بعدی قرار می‌گیرند به گونه‌ای که گره‌هایی که ضریب دست‌یابی اطلاعات و برچسب دسته را نشان می‌دهند نزدیک ریشه قرار می‌گیرند. شکل (2-4) چگونگی ساخت درخت تصمیم برای جدول (2-1) را نمایش می‌دهد.
جدول 2-1: مجموعه داده‌های آموزشصفت اول صفت دوم صفت سوم صفت چهارم کلاس
a1 a2 a3 a4 Yes
a1 a2 a3 b4 Yes
a1 b2 a3 a4 Yes
a1 b2 b3 b4 No
a1 c2 a3 a4 Yes
a1 c2 a3 b4 No
b1 b2 b3 b4 No
c1 b2 b3 b4 No
برای بالا بردن قابلیت تفسیر درخت لازم است که اندازه درخت را کاهش دهیم که این کار موجب کمتر شدن پایداری می‌گردد. روش‌های بهینه‌سازی مختلفی برای تعیین ساختار بهینه درخت در مسائل دسته‌بندی مورد استفاده قرار گرفته‎اند. هنگامی که بخواهیم الگوریتم‌های درخت‌های تصمیم را بر روی مجموعه داده‌های بزرگی به کار گیریم، ناپایدار بودن این الگوریتم‌ها بیشتر نمایان می‌شود زیرا دست‌یابی یکباره به همه داده‌ها و ایجاد یک درخت تصمیم یکتا عملی نمی‌باشد.
360680-34925صفت 1
صفت 2
No
No
Yes
Yes
صفت 3
صفت 4
No
Yes
No
a1
c1
b1
a2
b2
c2
a3
b3
a4
b4
00صفت 1
صفت 2
No
No
Yes
Yes
صفت 3
صفت 4
No
Yes
No
a1
c1
b1
a2
b2
c2
a3
b3
a4
b4

25336516510شکل 2- SEQ شکل_2- \* ARABIC 4: درخت تصمیم جدول (2-1)00شکل 2- SEQ شکل_2- \* ARABIC 4: درخت تصمیم جدول (2-1)
2-4-3- شبکه‌های بیزیندر روش‌های دسته‌بندی آماری برخلاف سایر دسته‌بندها میزان عضویت یک نمونه به هر کلاس را با یک احتمال نشان می‌دهد. روش شبکه‌های بیزین رایج‌ترین روش دسته‌بندی آماری و از روش‌های ساده و موثر محسوب می‌شود. در این روش احتمال شرطی هر صفت داده شده را توسط برچسب دسته مربوطه از داده‌های آموزشی یاد می‌گیرید. سپس عمل دسته‌بندی توسط بکار بردن قوانین بیز برای محاسبه مقدار احتمالی دسته نتیجه نمونه داده شده با دقت بالایی انجام می‌شود. در حالت معمولی این کار با تخمین احتمالاتی هر ترکیب ممکن از صفات صورت می‌گیرد ولی هنگامی که تعداد صفات خیلی زیاد باشد، این امر امکان پذیر نیست. بنابراین یک فرض مستقل قوی اتخاذ می‌شود که همه صفات با مشخص بودن مقدار صفت دسته مستقل می‌باشند. با در نظر گرفتن این فرض لازم است که فقط احتمالات حاشیه‌ای هر صفت دسته محاسبه گردد. با این حال این فرض به صورت غیرواقعی می‌باشد و شبکه‌های بیزین با مدل کردن صریح، وابستگی بین صفات آن را در نظر نمی‌گیرند ADDIN EN.CITE <EndNote><Cite><Author>Heckerman</Author><Year>1996</Year><RecNum>20</RecNum><DisplayText>[4]</DisplayText><record><rec-number>20</rec-number><foreign-keys><key app="EN" db-id="92s9f5r5x0rwr7ezx935zxfnpxazas09a9dd">20</key></foreign-keys><ref-type name="Journal Article">17</ref-type><contributors><authors><author>Heckerman, David</author><author>Breese, John S</author></authors></contributors><titles><title>Causal independence for probability assessment and inference using Bayesian networks</title><secondary-title>Sys--s, Man and Cybernetics, Part A: Sys--s and Humans, IEEE Transactions on</secondary-title></titles><periodical><full-title>Sys--s, Man and Cybernetics, Part A: Sys--s and Humans, IEEE Transactions on</full-title></periodical><pages>826-831</pages><volume>26</volume><number>6</number><dates><year>1996</year></dates><isbn>1083-4427</isbn><urls></urls></record></Cite></EndNote>[4].
مسأله یادگیری ساختار شبکه بیزین به این صورت بیان می‌شود که با داشتن یک مجموعه آموزشی از n نمونه u؛ یک شبکه پیدا کنیم که بهترین تطبیق را با A داشته باشد. معمول‌ترین روش برای این مسأله معرفی یک تابع هدف است که هر شبکه با توجه به داده‌های آموزشی و جستجوی بهترین شبکه بر اساس این تابع ارزیابی شود ADDIN EN.CITE <EndNote><Cite><Author>Kotsiantis</Author><Year>2007</Year><RecNum>15</RecNum><DisplayText>[24]</DisplayText><record><rec-number>15</rec-number><foreign-keys><key app="EN" db-id="92s9f5r5x0rwr7ezx935zxfnpxazas09a9dd">15</key></foreign-keys><ref-type name="Book">6</ref-type><contributors><authors><author>Kotsiantis, Sotiris B</author><author>Zaharakis, ID</author><author>Pintelas, PE</author></authors></contributors><titles><title>Supervised machine learning: A review of classification techniques</title></titles><pages>249-268</pages><dates><year>2007</year></dates><urls></urls></record></Cite></EndNote>[24]. چالش‌های بهینه‌سازی کلیدی انتخاب تابع هدف و تعیین روال جستجو برای بهترین شبکه می‌باشد.
شبکه بیزین مدلی گرافیکی برای نشان دادن توزیع احتمالی مجموعه‌ای از متغیرها است. دانش بدست آمده برای یک مسئله به صورت اطلاعات کمی و کیفی در این گراف مدل می‌شود. این کار با مشخص کردن مجموعه‌ای از فرضیات استقلال خطی توسط کمان‌های گراف، همراه با ذکر مقادیر احتمال شرطی گره‌ها انجام می‌شود ADDIN EN.CITE <EndNote><Cite><Author>Murphy</Author><Year>2012</Year><RecNum>6</RecNum><DisplayText>[17]</DisplayText><record><rec-number>6</rec-number><foreign-keys><key app="EN" db-id="92s9f5r5x0rwr7ezx935zxfnpxazas09a9dd">6</key></foreign-keys><ref-type name="Book">6</ref-type><contributors><authors><author>Kevin P. Murphy</author></authors></contributors><titles><title>Machine Learning: A Probabilistic Perspective</title></titles><pages>3</pages><dates><year>2012</year></dates><publisher>The MIT Press</publisher><isbn>0262018020, 9780262018029</isbn><urls></urls></record></Cite></EndNote>[17].
سرطان شش
سیگار
اشعه x
نارحتی ریوی
تنگی نفس
P(D|C,B)
P(B|S)
P(S)
P(X|C,S)
P(C|S)
سرطان شش
سیگار
اشعه x
نارحتی ریوی
تنگی نفس
P(D|C,B)
P(B|S)
P(S)
P(X|C,S)
P(C|S)

شکل 2- SEQ شکل_2- \* ARABIC 5: مثالی از شبکه‌ی بیزین [24]
هر متغیری به صورت یک گره در شبکه بیزین نمایش داده شده و برای هر متغیر دو نوع اطلاعات ارائه می‌گردد: کمان‌های شبکه برای نشان دادن رابطه استقلال شرطی بکار می‌رود یک متغیر با دانستن والدین آن از گره‌های غیر فرزند آن مستقل است. جدولی نیز ارائه می‌گردد که توزیع احتمال هر گره برای والدین بلا فصل آن را مشخص می‌کند.
جدول 2-2: جدول توزیع احتمال گره تنگی نفس [24]
D=1 D=0 B C
0.8 0.2 0 0
0.2 0.8 1 0
0.9 0.1 0 1
0.6 0.4 1 1
2-4-4- K نزدیک‌ترین همسایهالگوریتم k نزدیک‌ترین همسایه مثالی از یادگیری بر اساس نمونه است که در آن مجموعه داده آموزشی برای ایجاد یک مدل دسته‌بندی مورد استفاده قرار می‌گیرند. بنابراین یک دسته‌بندی برای یک نمونه دسته‌بندی نشده ممکن است به سادگی با مقایسه آن با شبیه‌ترین نمونه‌ها در مجموعه آموزشی یافت شود. روال این الگوریتم به این صورت است که برای هر نمونه جدید با مقایسه آن با k نمونه آموزشی نزدیکتر، دسته نتیجه را مشخص می‌کنیم ADDIN EN.CITE <EndNote><Cite><Author>Duda</Author><Year>2012</Year><RecNum>18</RecNum><DisplayText>[25]</DisplayText><record><rec-number>18</rec-number><foreign-keys><key app="EN" db-id="92s9f5r5x0rwr7ezx935zxfnpxazas09a9dd">18</key></foreign-keys><ref-type name="Book">6</ref-type><contributors><authors><author>Duda, Richard O</author><author>Hart, Peter E</author><author>Stork, David G</author></authors></contributors><titles><title>Pattern classification</title></titles><dates><year>2012</year></dates><publisher>John Wiley &amp; Sons</publisher><isbn>111858600X</isbn><urls></urls></record></Cite></EndNote>[25]. بنابراین لازم است معیاری را برای تعیین فاصله بین نمونه‌ها مشخص نماییم. برای تعیین فاصله بین دو نمونه و توابع فاصله فراوانی می‌تواند مورد استفاده قرار گیرد جدول (2-3).
جدول 2-3: توابع فاصله میان نمونه‌های x و yتابع فاصله فرمول
فاصله اقلیدسی d(x,y)=i=1n(xi-yi)2
فاصله همینگ d(x,y)=i=1nxi-yi
فاصله چبیشف d(x,y)=maxi=1,2,…,nxi-yi
فاصله مینکوفسکی d(x,y)=pi=1n(xi-yi)pp>0
فاصله کانبرا d(x,y)=i=1nxi-yixi+yi
به دست آوردن معیار فاصله برای داده‌های عددی آسان است ولی متغیرهای گروهی نیاز به مکانیزم خاصی برای فاصله دارند. زمان محاسباتی روش k نزدیک‌ترین همسایه به صورت نمایی از تمام نقاط افزایش می‌یابد لذا از لحاظ محاسباتی الگوریتم پر هزینه‌ای می‌باشد. این در حالی است که به کار بردت درخت تصمیم یا شبکه عصبی سریع‌تر می‌باشد.
2-4-5- ماشین بردار پشتیبانماشین بردار پشتیبان دسته‌بندی کننده‌ای است که جزو روش‌های بر پایه هسته در یادگیری ماشین محسوب می‌شود. SVM در سال 1992 توسط وپ‌نیک معرفی شده و بر پایه نظریه آماری یادگیری بنا گردیده است. الگوریتم SVM یکی از الگوریتم‌های معروف در زمینه یادگیری با نظارت است که برای دسته‌بندی و رگرسیون استفاده می‌شود. این الگوریتم به طور هم‌زمان حاشیه‌های هندسی را بیشینه کرده و خطای تجربی دسته‌بندی را کمینه می‌کند لذا به عنوان دسته‌بندی حداکثر حاشیه نیز نامیده می‌شود ADDIN EN.CITE <EndNote><Cite><Author>Bishop</Author><Year>2006</Year><RecNum>21</RecNum><DisplayText>[26]</DisplayText><record><rec-number>21</rec-number><foreign-keys><key app="EN" db-id="92s9f5r5x0rwr7ezx935zxfnpxazas09a9dd">21</key></foreign-keys><ref-type name="Book">6</ref-type><contributors><authors><author>Bishop, Christopher M</author><author>Nasrabadi, Nasser M</author></authors></contributors><titles><title>Pattern recognition and machine learning</title></titles><volume>1</volume><dates><year>2006</year></dates><publisher>springer New York</publisher><urls></urls></record></Cite></EndNote>[26].
برای یک مسأله دسته‌بندی با دو دسته نتیجه خطوط بی‌شماری ممکن است وجود داشته باشند که توسط آن‌ها دسته‌بندی انجام شود ولی فقط یکی از این خطوط ماکزیمم تفکیک و جداسازی را فراهم می‌آورد. از بین جداسازهای خطی، آن جداسازی که حاشیه داده‌های آموزشی را حداکثر می‌کند خطای تعمیم را حداقل خواهد کرد. نقاط داده‌ای ممکن است ضرورتاً نقاط داده‌ای در فضای R2 نباشند و ممکن است در فضای چند بعدی Rn مربوط باشند. دسته‌بندهای خطی بسیاری ممکن است این خصوصیت را ارضا کنند اما SVM به دنبال جداکننده‌ای است که حداکثر جداسازی را برای دسته‌ها انجام دهد.
86360069215w.x+b = 1
w.x+b = -1
w.x+b = 0
SV
SV
SV
کلاس 1-
کلاس 1
00w.x+b = 1
w.x+b = -1
w.x+b = 0

 برای دانلود فایل کامل به سایت منبع مراجعه کنید  : elmname.com

یا برای دیدن قسمت های دیگر این موضوع در سایت ما کلمه کلیدی را وارد کنید :

 

SV
SV
SV
کلاس 1-
کلاس 1

863600130810شکل 2- SEQ شکل_2- \* ARABIC 6: دسته‌بند ماشین بردار پشتیبان [26]
00شکل 2- SEQ شکل_2- \* ARABIC 6: دسته‌بند ماشین بردار پشتیبان [26]

همان‌طور که در شکل (2-6) مشاهده می‌شود فراصفحه‌هایی که از نزدیکی داده‌های آموزش می‌گذرند حساس به خطا می‌باشند و احتمال اینکه برای داده‌های خارج از مجموعه آموزش قدرت تعمیم دهی خوبی داشته باشند بسیار کم است. در عوض، به نظر می‌رسد فراصفحه ای که بیشترین فاصله را از تمام نمونه‌های آموزشی دارد قابلیت‌های تعمیم دهی مناسبی را فراهم آورد. نزدیک‌ترین داده‌های آموزشی به فراصفحه‌های تفکیک کننده را بردار پشتیبان (SV) نامیده می‌شوند ADDIN EN.CITE <EndNote><Cite><Author>Bishop</Author><Year>2006</Year><RecNum>21</RecNum><DisplayText>[26]</DisplayText><record><rec-number>21</rec-number><foreign-keys><key app="EN" db-id="92s9f5r5x0rwr7ezx935zxfnpxazas09a9dd">21</key></foreign-keys><ref-type name="Book">6</ref-type><contributors><authors><author>Bishop, Christopher M</author><author>Nasrabadi, Nasser M</author></authors></contributors><titles><title>Pattern recognition and machine learning</title></titles><volume>1</volume><dates><year>2006</year></dates><publisher>springer New York</publisher><urls></urls></record></Cite></EndNote>[26]. اگر مجموعه داده به صورت نشان داده شود. Yi می‌تواند مقدار 1 و 1- دریافت کند که توسط این ثابت‌ها دسته‌های نقاط Xi مشخص می‌گردد که هر Xi یک بردار n بعدی است. هنگامی که داده‌های آموزشی که در دسته‌های صحیح دسته‌بندی شده‌اند را در اختیار داریم، SVM توسط تقسیم‌بندی فراصفحه ای آن‌ها را از هم جدا کرده و در دسته‌های جداگانه قرار می‌دهد به طوری که ، بردار W نقاط عمودی فراصفحه‌ها را جدا می‌کند و b میزان حاشیه را مشخص می‌کند. فراصفحه‌های موازی را می‌توان به صورت و تعریف کرد.
اگر داده‌های آموزشی به صورت خطی جدایی پذیر باشند، می‌توان فراصفحه‌ها را به طوری انتخاب نمود که هیچ نمونه‌ای میان آن‌ها نباشد و سپس تلاش کرد تا فاصله آن‌ها را به حداکثر رسانید. برای هر نمونه i از داده‌ها رابطه زیر را داریم:
(2-5) or
(2-6)
فاصله بین دو فراصفحه را از طریق تحلیل هندسی با رابطه می‌توان بدست آورد. بنابراین مسأله بهینه‌سازی ما به صورت زیر خواهد بود:
(2-7) or
می‌توان تصور کرد SVM بین دو دسته داده صفحه‌ای را ترسیم می‌کند و داده‌ها را در دو طرف این صفحه تفکیک می‌نماید. این فراصفحه به گونه‌ای قرار می‌گیرد که ابتدا دو بردار از یکدیگر دور می‌شوند و به گونه‌ای حرکت می‌کنند که هر یک به اولین داده نزدیک به خود برسد. سپس صفحه‌ای که در میان حد واسط این دو بردار رسم می‌شود از داده‌ها حداکثر فاصله را خواهد داشت و تقسیم کننده بهینه است.
تا اینجا، با این فرض که نمونه‌های آموزشی به صورت خطی جدایی پذیرند به استفاده از الگوریتم ماشین بردار پشتیبان پرداختیم. همان‌طور که می‌دانیم در عمل توزیع داده‌های دسته‌های مختلف ممکن است به راحتی جدایی پذیر نبوده و دارای تداخل باشد ADDIN EN.CITE <EndNote><Cite><Author>Bishop</Author><Year>2006</Year><RecNum>21</RecNum><DisplayText>[26]</DisplayText><record><rec-number>21</rec-number><foreign-keys><key app="EN" db-id="92s9f5r5x0rwr7ezx935zxfnpxazas09a9dd">21</key></foreign-keys><ref-type name="Book">6</ref-type><contributors><authors><author>Bishop, Christopher M</author><author>Nasrabadi, Nasser M</author></authors></contributors><titles><title>Pattern recognition and machine learning</title></titles><volume>1</volume><dates><year>2006</year></dates><publisher>springer New York</publisher><urls></urls></record></Cite></EndNote>[26]. در این صورت، تفکیک سازی دقیق نمونه‌ها ممکن است سبب تعمیم دهی ضعیف گردد.
یک راه حل این است که مقداری خطا در دسته‌بندی را بپذیریم. این کار با معرفی متغیر بی دقت (ξi) انجام می‌شود که نشانگر نمونه‌هایی است که توسط تابع غلط ارزیابی می‌شوند. این روش که به SVM با حاشیه‌ی نرم معروف است که اجازه می‌دهد بعضی از نمونه‌ها در ناحیه اشتباه قرار گیرند سپس آن‌ها را جریمه می‌کند؛ لذا این روش برخلاف SVM حاشیه‌ی سخت برای مواردی که نمونه‌های آموزشی به صورت خطی جدایی پذیر نیستند قابل استفاده است.
با معرفی متغیر ξi محدودیت‌های قبلی ساده‌تر شده و رابطه (2-3) به صورت زیر تغییر می‌کند:
(2-8)
5943602451735شکل 2- SEQ شکل_2- \* ARABIC 7: دسته‌بند ماشین بردار پشتیبان با حاشیه نرم [26]
00شکل 2- SEQ شکل_2- \* ARABIC 7: دسته‌بند ماشین بردار پشتیبان با حاشیه نرم [26]
594360184785w

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *