منبع علمی مقاله user7-229

تحلیل گران انسانی ممکن است هفته‌ها برای کشف اطلاعات باارزش از داده وقت صرف کنند و گاهی اوقات ممکن است با صرف زمان زیادی لزوما موفق هم نشوند.
گاهی اوقات با وجود امکان جمع‌آوری داده، این کار انجام نمی‌شود. دلیل عدم جمع‌آوری داده معمولا عدم وجود دانش برای جمع‌آوری آن است. اینکه داده سرمایه یک سازمان است خود دانشی مهم و باارزش است که همیشه وجود ندارد.
1524032321500
شکل2-1: قیاس رشد حجم داده با رشد تعداد تحلیل‌گران داده2-3-نیاز به داده‌کاوی روش سنتی تبدیل داده‌ها به دانش، متکی به تجزیه، تحلیل و تفسیر دستی است. این تجزیه و تحلیل‌های دستی مجموعه‌های داده‌ای، کند، گران و بسیار موضوعی است. در حقیقت با رشد نمایی حجم داده‌ها، این نوع تجزیه و تحلیل‌ها در بسیاری از حوزه‌ها غیر عملی است. هنگامی که مقیاس به‌کارگیری داده‌ها و استدلال بر مبنای آن‌ها فراتر از ظرفیت‌های انسانی می‌رود، امید به کمک فناوری کامپیوتر می‌رود. مساله استخراج دانش از پایگاه‌های داده‌ای بزرگ شامل مراحل بسیاری از دستکاری، بازیابی و پیش‌پردازش داده‌ها تا استدلالات ریاضی، آماری، جستجو و استنتاج می‌باشد(Wai-Ki Ching&Michael Kwok,2005).
2-4- چالش‌های داده‌کاویشاید بتوان مهم‌ترین نقاط ضعف روش‌های داده‌کاوی را در سه مورد خلاصه نمود: وجود داده، صحت داده و کافی بودن ویژگی‌ها. منظور از وجود داده‌این است که اصولا داده‌ای برای کاوش وجود داشته باشد و این‌گونه نباشد که داده در محیط مورد کاوش استخراج و یا ثبت نشده باشد. متاسفانه این مشکل در بسیاری از محیط‌های واقعی وجود دارد. صحت داده مبین آن است که داده جمع‌آوری شده صحیح بوده و نادرستی در آن وجود نداشته باشد. به عنوان مثال نباید جنسیت شخصی با نام «محسن» زن وارد شده باشد و یا اشتباه های دیگری که دلیل وجودی آن‌ها خطا در ورود داده است، رخ دهد. کافی بودن ویژگی‌ها بدین معنا است که ویژگی‌های اخذ شده برای هر رکورد یا شیء برای یادگیری مدل و یا کشف نظم حاکم بر داده موثر، مناسب و کافی باشند. به عنوان مثال اگر هدف ما یادگیری یک مدل در دسته‌بندی کننده برای تشخیص بیماری دیابت در یک کلینیک است، ثبت ویژگی قندخون بسیار مهم است در حالی که وجود ویژگی میزان تحصیلات اهمیتی ندارد. توجه کنید چنان چه هر کدام از مشکلات سه‌گانه فوق در داده وجود داشته باشند هیچ یک از الگوریتم‌های داده‌کاوی، هر قدر هم که توانا باشند، نخواهند توانست نظم حاکم بر داده را تحت هیچ شرایطی بیابند.
در داده‌کاوی چالش‌های متفاوتی وجود دارد که در اینجا به بررسی آن‌ها می پردازیم.
توجه کنید، منظور از چالش در اینجا مشکلاتی است که فرآیند داده‌کاوی و الگوریتم‌های مربوط به این فرآیند قادر به مواجهه با آن‌ها می‌باشند. بنابراین سه مورد اشاره شده، نقاط ضعف و نه چالش‌های موجود در داده‌کاوی هستند. در داده‌کاوی می‌توان چالش‌ها را به دو گروه اولیه و ثانویه تقسیم نمود. در ادامه به بررسی هر کدام از این دو دسته می‌پردازیم.
2-4-1- چالش‌های اولیهچالش‌های اولیه که انگیزه مهم به کارگیری فرآیند داده‌کاوی به جای روش‌های سنتی تحلیل داده‌ها هستند عبارتند از: حجیم بودن داده‌ها، ابعاد بالای داده‌ها، طبیعت توزیع شده و ناهمگن داده‌ها. در ادامه به بررسی هر کدام از این چالش‌ها می‌پردازیم
حجم بالای داده: الگوریتم‌های داده‌کاوی با تعداد زیادی از رکوردها کار می‌کنند و حجم زیادی از داده‌ها را پردازش می‌کنند. به طور کلی هر چه تعداد رکوردهای موجود زیادتر باشد باعث می‌شود روش‌های سنتی نتوانند این رکوردها را پردازش کنند. اگر تعداد رکوردها کم باشد فرآیند تحلیل آن‌ها بسیار ساده است و معمولا احتیاج به روش‌های داده‌کاوی نیست چرا که روش‌های ساده‌تر از داده‌کاوی نیز می‌توانند جوابگو باشند. هرچه تعداد رکوردها بیشتر باشد باعث می‌شود علم داده‌کاوی بتواند کارکرد درخشان‌تری داشته باشد. دراین موارد روش‌های ساده، سنتی و روش‌هایی که ممکن است حتی مکانیزه هم نباشند و شاید از کامپیوتر در آن‌ها استفاده نشود، نمی‌توانند خیلی کارگشا باشند.
ابعاد بالای داده‌ها: منظور از بعد همان فیلد یا ویژگی (خصیصه) می‌باشد. به طور کلی هر چه تعداد ویژگی‌ها بیشتر باشد، باعث خواهد شد که تحلیل داده‌ها مشکل‌تر شود. هرچه تعداد ویژگی‌های موجود در داده‌ها بیشتر باشد، نمی‌توان با استفاده از روش‌های سنتی بین آن‌ها نظمی پیدا کرد. این درحالی است که در این‌گونه مواقع الگوریتم‌های داده‌کاوی می‌توانند اثربخشی و توان بالقوه‌ای که دارا هستند را نشان دهند. در غیر این صورت از روش‌های ساده‌تر هم می‌توان برای پردازش داده‌ها استفاده نمود.
طبیعت توزیع شده داده‌ها: به طور کلی طبیعت توزیع شده داده‌ها وجود داده‌ها در منابع پراکنده باعث می‌شود نتوانیم از روش‌های سنتی برای پردازش داده‌ها استفاده کنیم. دراین مواقع به روش‌های داده‌کاوی نیاز داریم. این روش‌ها باید قادر باشند داده‌هایی را که در مکآن‌های مختلف ذخیره شده‌اند به گونه‌ای مدیریت کند که دانش نهفته را از نهان این داده‌های پراکنده و توزیع شده استخراج کنند.
طبیعت ناهمگن داده‌ها: در انباره داده‌ای که به‌عنوان مخزن فرآیند داده‌کاوی عمل می‌کند، انواع مختلفی از ویژگی‌ها وجود دارند. هر ویژگی محدوده مقادیر مشخص و ویژه ای اختیار می‌کند. کمینه و بیشینه مقادیر مربوط به بعضی از ویژگی‌ها باهم تفاوت زیادی دارند. بعضی از ویژگی‌ها، حوزه مقداری بسار وسیع بعضی دیگر حوزه محدودی دارند. دراین مواقع می‌توان از مباحث نرمال‌سازی برای برخورد با این مشکل استفاده کرد. اما مسائل دیگری نیز در ارتباط با ویژگی‌ها وجود دارند. به‌عنوان مثال بعضی از ویژگی‌های عددی (صحیح یا حقیقی) هستند، بعضی دودویی هستند، بعضی دیگر از ویژگی‌ها اسمی هستند (مثل رنگ چشم). بعضی از ویژگی‌ها نیز به گونه‌ای هستند که در مورد آن‌ها تنها می‌توان گفت آیا باهم مساوی هستند یا خیر (مثل رنگ چشم)، گونه‌ای دیگر از ویژگی‌ها به این شکل اند که در مورد آن‌ها علاوه بر مساوی یا نامساوی بودن می‌توان بزرگ‌تر و کوچک‌تر بودن را نیز تعیین نمود (مثل سطح تحصیلات)، در مورد برخی دیگر از ویژگی‌ها علاوه برمساوی یا نامساوی بودن و تعیین کوچک‌تر و یا بزرگ‌تری، می‌توان از عملگرهای جمع و تفریق نیز استفاده نمود (مثل تاریخ‌های تقویم) و در نهایت در مورد گروهی دیگر از ویژگی‌ها علاوه بر مساوی یا نامساوی، کوچک‌تر و یا بزرگ‌تر بودن، همچنین جمع و تفریق آن‌ها، می‌توان عملگرهای ضرب و تقسیم را نیز به کار برد (مثل قد و وزن). درنتیجه به دلیل تنوع بالای ماهیت ویژگی‌ها نمی‌توان از روش‌های سنتی برای پردازش داده‌ها استفاده نمود.
2-4-2- چالش‌های ثانویهچالش‌های ثانویه به آن دسته از چالش‌هایی گفته می‌شود که در قیاس با چالش‌های اولیه از اهمیت کمتری برخوردارند. البته می‌بایست توجه نمود، این امر بدان معنا نخواهد بود که اهمیت این چالش‌ها پایین است و یا حل مشکلات مربوط به آن‌ها کار ساده و یا کم‌تاثیری است. در ادامه به بررسی این چالش‌ها خواهیم پرداخت.
کیفیت داده : مربوط به زمانی است که کیفیت داده‌ها پایین است. به عنوان نمونه هنگامی که داده‌های ما شامل نویز، داده پرت، داده گمشده و داده تکرارشده باشد، شاهد پایین آمدن کیفیت داده‌ها خواهیم بود.
عدم مالکیت داده: به دلایل گوناگون مانند توزیع‌شدگی ممکن است نتوانیم کل داده‌ها را یک‌جا در مالکیت داشته باشیم و فرآیند کاوش را روی آن‌ها انجام دهیم.
حفظ حریم شخصی داده‌ها: مربوط به زمانی است که باید با رعایت حریم شخصی، داده‌ها را کاوش نماییم. فرآیند کاوش می‌بایست به‌گونه‌ای انجام شود که بتوان بدون دسترسی به همه داده‌ها و با دیدن تنها بخش محدودی از آن فرآیند داده‌کاوی را پیش‌برد. تفاوت حفظ حریم شخصی داده‌ها با توزیع‌شدگی و عدم مالکیت داده دراین است که در توزیع‌شدگی و عدم مالکیت داده ممکن است برای یادگیری مدل از همه داده‌ها استفاده شود ولی در اینجا ممکن است به بخشی از داده‌ها اصلا دسترسی وجود نداشته باشد، یعنی باید بتوانیم مدل خود را با همان داده‌های در دسترس بسازیم.
داده‌های جریانی: به داده‌هایی گفته می‌شود که سرعت تولید آن‌ها بالا است به گونه‌ای که فرصت تحلیل آن‌ها و ساخت مدل وجود ندارد چرا که حین انجام عملیات کاوش مرتبا داده‌های جدیدی تولید می‌شوند. بنابراین سیستم باید به صورت برخط باشد تا بتواند خودش را تصحیح کند و قادر باشد مدل به‌روزی را در اختیار قرار دهد.
2-5-معرفی داده‌کاوی برای درک کامل معنای داده‌کاوی می‌بایست ابتدا تعریف درستی از معانی کلمات داده،
اطلاعات و دانش داشته باشیم. این تعاریف در ذیل ارائه شده اند.
داده: به هر گونه سیمبل، عدد، رقم، کاراکتر، رشته و یا سیگنال که معنای خاصی را به ذهن القاء نکند داده گفته می‌شود. داده پایه‌ای‌ترین مفهوم در داده‌کاوی است که مبرا از هر‌گونه پردازشی می‌باشد.
اطلاعات: چنان‌چه در کنار عدد، کاراکتر و یا هر عنصر داده‌ای رشته‌ای به عنوان توصیف‌کننده‌ی معنای آن داده وجود داشته باشد، داده ابتدایی به اطلاعات تبدیل خواهد شد.
دانش: وجود یک رابطه میان دو عنصر اطلاعاتی مبین دانشی در آن زمینه است.
خرد: عالی‌ترین سطح بینش است که توسط علائم و نمادهای قراردادی تبیین می‌شود.
3697911930152می‌توان شکل 2-2 را جهت نشان دادن سلسله مراتب ارزشی برای معانی داده، اطلاعات، دانش و خرد در نظر گرفت. همان‌گونه که در این شکل دیده می‌شود هم‌زمان با افزایش ارزش معنایی برای مفاهیم مذکور حجم آن‌ها کاهش می‌یابد که کاملا طبیعی است. به عبارت دیگر این بسیار بدیهی است که بتوان حجم بالایی داده را با تنها چند قانون توصیف و تبیین نمود. کاری که اصلی‌ترین هدف در فرآیند داده‌کاوی است(صنیعی‌آباده،1391).
شکل 2-2 سلسله مراتب داده تا خردتعارف مختلفی برای داده‌کاوی وجود دارد، شاید بتوان تعریف ذیل را به عنوان یک تعریف کامل و جامع برای داده‌کاوی ارائه نمود:
استخراج خودکار دانش جدید و مفید از منابع داده‌ای حجیم موجود طی یک فرآیند غیر بدیهی مشخص داده‌کاوی نامیده می‌شود.
2-5-1-منشاُ علمیعلم داده‌کاوی از علوم مختلفی از جمله علم آمار، هوش مصنوعی، یادگیری ماشین، شناسایی الگو و پایگاه‌داده نشات گرفته است. در واقع این علوم ریشه‌های علم داده‌کاوی هستند. ما می‌توانیم از همه تکنیک‌هایی که در این علوم هستند بهره بگیریم به‌گونه‌ای که بتوانیم بفهمیم الگوریتم‌ها و روش‌هایی که در داده‌کاوی هستند چگونه عمل می‌کنند. الگوریتم‌های موجود در هوش مصنوعی و علم آمار کمک شایانی به داده‌کاوی می‌کنند. مباحث موجود در یادگیری ماشین و شناسایی الگو نیز با مباحثی که در داده‌کاوی هستند همپوشانی قابل ملاحظه‌ای دارند. به عنوان مثال الگوریتم‌هایی که یک مدل را یاد می‌گیرند یا الگویی را شناسایی می‌کنند، به‌خصوص اگر داده‌های مورد پردازش عددی یا متنی باشند (سیمبلیک نباشند) معمولا وجه مشترک یادگیری ماشین و شناسایی الگو با داده‌کاوی هستند. به‌علاوه، در علم پایگاه‌داده ‌یک پایگاه‌داده بزرگ داریم و همین پایگاه‌داده را در داده‌کاوی به عنوان انبار داده می‌شناسیم. این انبار داده باید حتما وجود داشته باشد تا یک الگوریتم داده‌کاوی بتواند روی آن انبار داده کار کند. حال از تکنیک‌هایی که در پایگاه‌داده برای جمع‌آوری داده‌ها وجود دارد می‌توانیم برای ایجاد این انبار داده جهت استفاده در فرآیند داده‌کاوی استفاده نماییم.
2-5-2- معماری سیستم داده‌کاویداده‌کاوی فرایند اکتشاف اطلاعات و روندهای جالب نهفته از درون حجم بسیار زیاد داده‌هایی است که در قالب پایگاه‌داده‌ای، انبارهای داده‌ای، یا هرنوع انباره اطلاعاتی، ذخیره می‌شود. براساس این دیدگاه معماری یک سیستم داده‌کاوی می‌تواند به‌صورتی‌که درشکل 2-3 نمایش داده شده است، درنظرگرفته شود.
510540-18161000شکل 2-3 معماری یک سیستم داده‌کاویپایگاه داده، پایگاه داده تحلیلی، یا مخزن اطلاعاتی دیگری
این قسمت شامل یک یا چند پایگاه داده، پایگاه داده‌ی تحلیلی یا مخازن اطلاعاتی دیگری است که دراین‌جا فنون یکپارچه‌سازی وپاک‌سازی داده‌ای ممکن است برروی داده‌ها به کار گرفته شود.
سرویس دهنده‌ی پایگاه‌داده
این سرویس دهنده مسئولیت واکشی داده را براساس درخواست داده‌کاوی کاربر بر عهده دارد.
پایگاه دانش
دامنه دانشی است که برای هدایت جستجوها ویاارزیابی جالب بودن نتایج الگوها به کار می‌رود. چنین دانشی می‌تواند دربرگیرنده سلسله مراتب مفهومی، باشد که برای سازماندهی صفات یا مقادیر صفات به سطوح مختلف انتزاع به‌کارگرفته می‌شود (دانشی ازجمله غیرمترقبه بودن آن‌ها)
موتور داده‌کاوی
این قسمت برای یک سیستم داده‌کاوی بسیار ضروری است و درواقع دربرگیرنده مجموعه‌ای
از پیمانه‌های کارکردی برای وظایفی همچون طبقه‌بندی، خوشه‌بندی، انجمنی، وتحلیل‌های تکاملی است.

 برای دانلود فایل کامل به سایت منبع مراجعه کنید  : elmname.com

یا برای دیدن قسمت های دیگر این موضوع در سایت ما کلمه کلیدی را وارد کنید :

 

پیمانه ارزیابی الگو
این قسمت نیز به‌طور‌کلی دربرگیرنده مقیاس‌های جالب بودن است و درتعامل با پیمانه‌های داده‌کاوی قرار دارد و تمرکز اصلی آن، جستجو به دنبال الگوهای جالب است. ممکن است از حدود آستانه جالب بودن برای فیلتر کردن الگوهای استخراج شده استفاده نماید. به‌صورت متناوب براساس روش به‌کار گرفته شده در داده‌کاوی می‌توان پیمانه ارزیابی الگو را با پیمانه کاوش یکی درنظر گرفت. برای داشتن داده‌کاوی کارآمدتر توصیه می‌شود ارزیابی الگوهای جالب تا حدامکان درفرآیند کاوش قرار گیرد تا دامنه جستجو محدود به الگوهای جالب شود.
واسط گرافیکی کاربر
این پیمانه ارتباط بین کاربر و سیستم داده‌کاوی را برقرار می‌سازد و به کاربر اجازه می‌دهد تا با سیستم داده‌کاوی در تعامل باشد. علاوه‌براین، این قسمت برای کاربر قابلیت مرور بر پایگاه‌داده، انبار داده ‌یا ساختارهای داده، الگوهای کشف شده و بصری‌سازی این الگوها را به صور مختلف، فراهم می‌کند.
2-5-3- مراحل عملیات داده‌کاویفرآیند داده‌کاوی شامل سه مرحله است:
آماده‌سازی داده
یادگیری مدل
ارزیابی و تفسیر مدل
در ادامه به توصیف هر کدام از این مراحل خواهیم پرداخت.
2-5-3-1-آماده‌سازی دادهاولین و مهم‌ترین مرحله در فرآیند داده‌کاوی آماده‌سازی داده می‌باشد. هدف در این
مرحله تامین ورودی مناسب برای مرحله حیاتی یادگیری مدل است. دراین مرحله داده پردازش نشده از کل منابع داده‌ای موجود (که ممکن است توزیع شده نیز باشد) استخراج شده، سپس در مرحله‌ای مستقل مورد پردازش اولیه قرار می‌گیرد. خروجی در مرحله آماده‌سازی داده عبارت است از داده پیش پردازش شده که امکان یادگیری مدل از روی آن وجود دارد.
همان‌گونه که گفته شد اولین گام در مرحله آماده‌سازی داده استخراج داده از منابع داده‌ای موجود است. در این گام می‌بایست داده‌ها که در منابع مختلفی پراکنده شده‌اند، به‌صورت متمرکز در یک محل جمع‌آوری شده و یک انباره داده مرکزی ایجاد شود. دلیل اصلی این گردآوری آن است که در اغلب موارد داده به‌صورت متمرکز در یک مکان وجود ندارد. به‌علاوه داده‌ها در بخش‌های مختلف ممکن است در فرمت‌های گوناگونی نیز ذخیره شده باشند. مثلا ممکن است بخشی از داده‌ها در یک پایگاه‌داده Oracel و بخش دیگر داده‌ها در یک پایگاه‌داده Sql ذخیره شده باشند. حتی ممکن است بخشی از داده‌ها در چند فایل اکسل یا حتی فایل متنی ذخیره شده باشند. گاهی اوقات داده‌هایی وجود دارند که روی کاغذ نوشته شده‌اند و حتی تایپ هم نشده‌اند. حال اگر قرار باشد فرآیند داده‌کاوی صورت پذیرد، باید داده‌های موجود در منابع مختلف متحد شده و در یک فرمت مشخص در یک انبار داده مرکزی ذخیره شوند. در غیر این صورت فرآیند داده‌کاوی هر چقدر هم که هوشمندانه و بی نقص انجام شود، نخواهد توانست دانشی باارزش ودرخور توجه تولید نماید.
دومین گام در مرحله آماده‌سازی داده، پیش‌پردازش داده‌های استخراج شده است. مهم‌ترین رسالت این گام زدودن مشکلات مختلفی که احتمالا در داده وجود دارند، خواهد بود. این مشکلات مانع از آن می‌شوند که مرحله‌ی یادگیری مدل بتواند نظم واقعی را در داده بیابد. در هر حال پس از پایان مرحله‌ی آماده‌سازی داده، مجموعه داده‌ای آماده خواهد شد که فاقد مشکلات جدی و کلیدی است و امکان کشف دانش نهفته در آن با استفاده از مرحله یادگیری مدل وجود دارد. این مرحله در ادامه توصیف می‌شود.
2-5-3-2-یادگیری مدل
دراین مرحله با استفاده از الگوریتم‌های متنوع و با توجه به ماهیت داده سعی ما بر این است که نظم های مختلف موجود در داده را شناسایی نموده و در فرمتی مشخص به عنوان دانش نهفته در داده ارائه کنیم. برای یادگیری مدل می‌بایست روش‌های آن را به‌درستی شناخت تا بتوان در جای مناسب، روش درست را انتخاب نمود و به‌کار بست. در بخش 2-8 انواع روش‌های یادگیری مدل در داده‌کاوی مورد بحث و بررسی قرار خواهند گرفت. قبل از آن به توضیح مرحله نهایی در داده‌کاوی یعنی ارزیابی و تفسیر مدل می‌پردازیم.
2-5-3-3-ارزیابی و تفسیر مدلدر این مرحله دانش تولید شده در مرحله قبل ارزیابی شده و مورد تفسیر قرار می‌گیرد. منظور از ارزیابی دانش آن است که می‌بایست میزان صحت دانش تولید شده مشخص شود تا بتوان به آن اعتماد نمود و به صورت عملی از آن استفاده کرد. روش‌های مختلفی برای ارزیابی دانش تولید شده، وجود دارند که رابطه‌ی تنگاتنگی با روش یادگیری مدل دارند.
تفسیر مدل به معنای آن است که دانش تولید شده را مورد بررسی قرار داده و توجیهی معنایی جهت تبیین منطق آن ارائه نماییم. در صورت قابل تفسیر بودن دانش تولید شده، انجام این کار بسیار ساده است (به عنوان مثال زمانی که دانش به‌صورت درخت یا مجموعه قوانین باشد). در مقابل امکان تفسیر دانش برای مواقعی که دانش به صورت غیرقابل تفسیر باشد (مانند دانش تولید شده توسط شبکه‌های عصبی و یا ماشین بردار پشتیبان) بسیار مشکل‌تر و شاید غیرممکن خواهد بود.
2-6- محدودیت‌های داده‌کاویداده‌کاوی نیاز شما را به دانستن نجارت داده‌ها و روش‌های تحلیل داده‌های شما را حذف نخواهد کرد. درواقع داده‌کاوی به تحلیل‌های با یافتن الگوها و روابط بین داده‌ها کمک نخواهد کرد و علاوه‌براین الگوهایی که توسط داده‌کاوی کشف می‌شوند باید در دنیای واقعی وارسی شوند.
باید همواره به خاطر داشت که رابطه پیش گویآن‌های که به‌وسیله داده‌کاوی یافته می‌شود، لزوما سبب انجام رفتاری خاص یا عکس‌العمل نمی‌شود. داده‌کاوی هیچگاه جای یک مدیر یا تحلیل‌گرحرفه‌ای را نمی‌گیرد بلکه ابزار جدید و قدرتمندی را دراختیارشان قرار می‌دهد تا به کمک آن بتوانند در کارها و وظایف خود موفق‌تر و دقیق‌تر عمل نمایند بنابراین کاری که داده‌کاوی می‌تواند انجام دهد استفاده از تجارب و یافتن الگوهایی دقیق و جدید می‌باشد که سبب توسعه و رشد آن شرکت خواهد شد(پناهی آذر،1385).
2-7- قابلیت‌های داده‌کاویاهداف سطح بالای داده‌کاوی، پیش‌‌‌‌بینی و توصیف یا ترکیبی از پیش‌‌‌‌بینی و توصیف است. هدف پیش‌‌‌‌بینی متمرکز بر روی دقت در توانایی پیش‌‌‌‌بینی است و هدف توصیف، متمرکز بر روی درک فرآیند تولید داده‌هاست. در پیش‌‌‌‌بینی، تا زمانی‌که مدل قدرت پیش‌‌‌‌بینی دارد، کاربر توجهی به این‌که آیا مدل منعکس کننده واقعیت باشد ندارد. مثلا مدلی که شاخص‌های مالی را به شکلی غیرخطی ترکیب می‌کند تا نرخ تبادل بازار را پیش‌‌‌‌بینی کند. از سویی دیگر، مدل توصیفی به عنوان انعکاس واقعیت تفسیر می‌شود (مثلا مدلی که متغیرهای اقتصادی و جمعیتی را به پیشرفت‌های آموزشی مرتبط می‌سازد، به عنوان مبنایی برای توصیه‌های سیاست اجتماعی منتهی به تغییر استفاده می‌شود).
2-8- روش‌های یادگیری مدل در داده‌کاویروش‌های مختلف کاوش داده در دو گروه روش‌های پیش‌بینی و روش‌های توصیفی طبقه‌بندی می‌شوند. در ادامه به شرح هر کدام از این دو گروه می‌پردازیم.
2-8-1- روش‌های پیش‌بینیاین روش‌ها از مقادیر بعضی از ویژگی‌ها برای پیش‌بینی کردن مقدار یک ویژگی مشخص استفاده می‌کنند. در متون علمی مختلف روش‌های پیش‌بینی بانام روش‌های باناظر نیز شناخته می‌شوند. روش‌های دسته‌بندی، رگرسیون و تشخیص انحراف سه روش یادگیری مدل در داده‌کاوی با ماهیت پیش‌بینی هستند.‌
2-8-1-1- دسته‌بندیدر الگوریتم‌های دسته‌بندی مجموعه داده اولیه به دو مجموعه داده با عنوان مجموعه داده‌های آموزشی و مجموعه داده‌های آزمایشی تقسیم می‌شود، با استفاده از مجموعه داده‌های آموزشی مدل ساخته می‌شود و از مجموعه داده آزمایشی برای اعتبار سنجی و محاسبه دقت مدل ساخته شده استفاده می‌شود. هر رکورد شامل یک مجموعه از ویژگی‌ها است. یکی از این ویژگی‌ها، ویژگی دسته نامیده می‌شود. در الگوریتم‌های دسته‌بندی چون ویژگی دسته مربوط به هر رکورد مشخص است بنابراین جزء الگوریتم‌های باناظر محسوب می‌شوند. الگوریتم‌های باناظر شامل دو مرحله با عنوان مرحله آموزش و مرحله ارزیابی هستند. در مرحله آموزش، مجموعه داده‌های آموزشی به یکی از الگوریتم‌های دسته‌بندی داده می‌شود تا براساس مقادیر سایر ویژگی‌ها برای مقادیر ویژگی دسته، مدل ساخته شود. شکل مدل ساخته شده به نوع الگوریتم یادگیرنده بستگی دارد. به عنوان مثال اگر الگوریتم یادگیرنده الگوریتم درخت‌تصمیم باشد مدل ساخته شده یک درخت‌تصمیم خواهد بود، اگر الگوریتم یادگیرنده یک دسته‌بندی مبتنی بر قانون باشد مدل ساخته شده یک مجموعه قانون خواهد بود. در هر صورت با نوجه به الگوریتم یادگیرنده مورد استفاده درمرحله‌ی آموزش، مدل ساخته می‌شود. پس از ساخت مدل در مرحله ارزیابی، دقت مدل ساخته شده به کمک مجموعه داده‌های آزمایشی که مدل ساخته شده در مرحله آموزش این مجموعه داده‌ها را ندیده است، ارزیابی خواهد شد. از مجموعه داده‌های آزمایشی در مرحله آموزش و ساخت مدل استفاده نمی‌شود.
2-8-1-2- رگرسیونپیش‌بینی مقدار یک متغیر پیوسته براساس مقادیر سایر متغیرها بر مبنای یک مدل وابستگی خطی یا غیرخطی رگرسیون نامیده می‌شود. رگرسیون در علوم آمار و شبکه‌های عصبی به صورت وسیع مورد مطالعه و بررسی قرار می‌گیرد. در واقع یک بردار x به‌عنوان ورودی داریم که به یک متغیر خروجیy نگاشت شده است. هدف محاسبه yیا همانF(x) است که از روی تخمین تابع مقدار آن محاسبه می‌شود. در اینجا می‌بایست به ازای یک بردارx ، مقدار دقیق y قابل محاسبه باشد. این کاربرد نیز مانند دسته‌بندی یک کاربرد از نوع پیش‌بینی یا با ناظر است. دلیل آن‌هم کاملاً روشن است، چرا که باید مقدار یک متغیر که در این‌جا با نشان داده شده، از روی مقادیر متغیرهای دیگر که آن را با بردار x مشخص می‌کنیم، پیش‌بینی شود. بنابراین در رگرسیون هم دو مرحله آموزش و ارزیابی وجود خواهد داشت که طی آن‌ها از مجموعه داده‌های آموزشی و مجموعه داده‌های آزمایشی استفاده می‌شود. روش‌های موجود در رگرسیون بیشتر مبتنی بر ریاضیات آماری هستند. یک نوع خاصی از رگرسیون، پیش‌بینی سری‌های زمانی است. در مسائل پیش‌بینی سری‌های زمانی یکی از متغیرهای اصلی زمان می‌باشد. در این مسائل یک مجموعه ازx ها و y ها به‌صورت یک تابع ریاضی وجود دارند. به عبارت دیگر به ازای هر xفقط و فقط یک y موجود می‌باشد. (درغیر این صورت زمان به عقب برخواهد گشت). هدف این است که به ازای یک x جدید مقدار y آن را پیش‌بینی کنیم. به‌عنوان مثال تغییرات قیمت سهام ایران خودرو را از سه سال پیش تا به امروز به صورت یک نمودار داریم، حال می‌خواهیم ادامه این نمودار را برای مدتی مشخص ( مثلاً یک ماه آینده) پیش‌بینی کنیم. به این مساله پیش‌بینی سری زمانی گفته می‌شود که نوع خاصی از رگرسیون است. بدیهی است که رگرسیون لزوماً می‌تواند سری زمانی نباشد.
2-8-1-3-تشخیص انحرافآخرین کاربرد مهم یادگیری با ناظر در داده‌کاوی تشخیص انحراف است. در مواقعی از این کاربرد استفاده می‌شود که تنها نمونه‌های با یک برچسب یکسان، که معمولا وضعیت نرمال را نشان می‌دهد، دردسترس باشند و امکان مالکیت بر داده‌ها با تمامی برچسب‌های موجود به دلایل مختلف وجود نداشته باشد. بنابراین چون فقط نمونه‌های دسته نرمال در اختیار است، الگوریتم برای وضعیت نرمال و با توجه به یک آستانه مشخص مدل می‌سازد و هرگونه تخطی از آن آستانه را به عنوان وضعیت غیر نرمال در نظر می‌گیرد و هشدار می‌دهد. دو نمونه از کاربردهای تشخیص انحراف عبارتند از: کشف کلاه‌برداری‌های کارت‌های اعتباری و تشخیص نفوذ به شبکه‌های کامپیوتری.
2-8-2- روش‌های توصیفیبعضی از اوقات هدف از داده‌کاوی توصیف وضعیتی است که در پایگاه اطلاعاتی وجود دارد، به‌گونه‌ای که سبب افزایش دریافت‌های ما از افراد، محصولات یا پردازش‌هایی شود که داده‌ها را در اولین گام تولید می‌کنند. توصیفی خوب از یک رفتار پیشنهاد‌دهنده توضیحی برای آن می‌باشد و در نهایت توصیف، خود پیشنهاد می‌کند که کجا را برای یک توضیح باید شروع به جستجو نمود.
هر چند که مدل‌های توصیفی پیش‌گو نیستند ولی برعکس آن صادق هستند. یعنی مدل‌های پیش‌گو اغلب توصیفی هستند. در کاربردهای تجاری واقعی، داده‌کاوی معمولا برروی پایگاه‌های داده‌ای خیلی بزرگ اعمال می‌شود، دلیل این امر را می‌توان در دو مورد زیر خلاصه نمود.
درپایگاه‌های داده‌ای کوچک، امکان یافتن الگوهای جالب و روابط با بررسی خیلی ساده نتایج به کمک ابزارهای کمکی همچون صفحه گسترده موجود است.
اکثر فنون داده‌کاوی نیاز به آموزش برروی داده‌ها و مثال‌هایی دارند که از قبل جواب
آن‌ها مشخص می‌باشد، در پایگاه‌های داده‌ای به دلیل کوچک بودن محدوده اطلاعاتی، نمی‌توان الگوهای مناسب و خوبی یافت.
روش‌های توصیفی الگوهای قابل توصیفی را پیدا می‌کنند که روابط حاکم بر داده‌ها را بدون در نظر گرفتن هر گونه برچسب و یا متغیر خروجی تبیین نمایند. در متون علمی مختلف روش‌های توصیفی با نام روش‌های بدون ناظر نیز شناخته می‌شوند. روش‌های خوشه‌بندی، کاوش قوانین انجمنی و کشف الگوهای ترتیبی سه روش یادگیری مدل در داده‌کاوی با ماهیت توصیفی هستند. در ادامه به بررسی هر کدام از این روش‌ها می‌پردازیم.
2-8-2-1- خوشه‌بندیدر مسائل خوشه‌بندی یک مجموعه رکورد داریم که هر کدام یک مجموعه از ویژگی‌ها دارا هستند. یک معیار مشابهت میان آن‌ها تعریف می‌کنیم. این معیار مشابهت در مسائل مختلف متفاوت است. به عنوان مثال اگر ویژگی‌ها پیوسته باشند می‌توان فاصله اقلیدسی را به عنوان معیار مشابهت در نظر گرفت. به این ترتیب هر رکورد را به صورت یک نقطه در فضای چند بعدی در نظر می‌گیریم. هر بعد، نماینده یکی از ویژگی‌های مساله است. در مسائل خوشه‌بندی هیچ‌گونه دسته خاصی وجود ندارد. در واقع ویژگی دسته نداریم و فقط براساس معیار شباهت گروه‌بندی و خوشه‌بندی داده‌ها صورت می‌پذیرد. خوشه‌بندی به این شکل انجام می‌شود که رکوردهایی که بیشترین شباهت را به یکدیگر دارند (با توجه به معیار شباهت تعریف شده) در یک خوشه قرار می‌گیرند. در نتیجه داده‌های موجود در خوشه‌های متفاوت کمترین شباهت را به یکدیگر خواهند داشت. از آنجایی که برای الگوریتم‌های خوشه‌بندی ِویژگی دسته تعریف نمی‌شود و رکوردها برچسب خاصی ندارند، بنابراین جزء الگوریتم‌های بدون ناظر محسوب می‌شوند. خروجی الگوریتم‌های خوشه‌بندی دوباره تحلیل خواهد شد تا در صورت امکان نظمی در خوشه‌ها آشکار شود. نکته مهمی که می‌بایست به آن توجه نمود آن است که خوشه‌بندی همیشه براساس ویژگی‌های ورودی نمونه‌ها انجام می‌شود. به عنوان مثال در صورت خوشه‌بندی رکوردهای مربوط به دانشجویان یک دانشکده هر خوشه ممکن است بیانگر رکوردهایی باشد که از جنبه‌های مختلف به یکدیگر شبیه هستند. مثلا یک وضعیت ممکن است این باشد که دو خوشه به وجود آید که نشان‌گر دانشجویان زرنگ و تنبل باشند. ممکن است این دو خوشه بیانگر دانشجویان پسر و دختر باشند. حالت دیگر دو وضعیتی را نشان می‌دهد که دانشجویان را براساس شهر قبولی آن‌ها به دو خوشه بومی و غیربومی تقسیم نموده است. می‌توان وضعیت‌های دیگری را نیز در نظر گرفت ( حتی تعداد خوشه‌ها نیز می‌تواند بیشتر از دو باشد) این که کدامیک از حالات ذکر شده رخ می‌دهد، کاملاً به ویژگی‌های انتخاب شده (فیلدهای اطلاعاتی دانشجویان) بستگی دارد و به‌صورت مستقیم به الگوریتم خوشه‌بندی مرتبط نیست. هدف در همه الگوریتم‌های خوشه‌بندی کمینه کردن فاصله درون خوشه‌ای و بیشینه نمودن فاصله بین خوشه‌ای می‌باشد. عملکرد خوب یک الگوریتم خوشه‌بندی زمانی محرز می‌شود که تا حد امکان خوشه‌ها را از یکدیگر دورتر کند (یعنی رکوردهای موجود در خوشه‌های مختلف کمترین شباهت را به یکدیگر داشته باشند) و به علاوه رکوردهای موجود در یک خوشه بیشترین شباهت را به یکدیگر دارا باشند.
هدف از خوشه‌بندی یافتن گروه‌هایی است که با یکدیگر بسیار متفاوتند ولی اعضای این گروه‌ها بسیار به هم شبیه‌اند. در خوشه‌بندی، کلاس از پیش تعریف شده‌ای وجود ندارد. رکوردها بر اساس شباهت‌های خودشان گروه‌بندی می‌شوند و افرادی که خبره هستند باید این خوشه‌ها را تفسیر کنند. غالبا خوشه‌بندی پیش‌درآمدی برای دیگر فنون داده‌کاوی یا مدل‌سازی می‌باشد(Wai-Ki Ching&Michael Kwok,2005).
خوشه‌بندی به دو صورت انجام می‌شود:
خوشه‌بندی انحصاری و خوشه‌بندی با هم‌پوشی
در روش خوشه‌بندی انحصاری پس از خوشه‌بندی هر داده دقیقاً به یک خوشه تعلق می‌گیرد مانند روش خوشه‌بندی k-means ولی در خوشه‌بندی با هم‌پوشی پس از خوشه‌بندی به هر داده ‌یک درجه تعلق به ازای هر خوشه نسبت داده می‌شود. به عبارتی یک داده می‌تواند با نسبت‌های متفاوتی به چندین خوشه تعلق داشته باشد. نمونه‌ای از آن خوشه‌بندی فازی است.
خوشه‌بندی سلسله مراتبی و خوشه‌بندی مسطح
در روش خوشه‌بندی سلسله مراتبی، به خوشه‌های نهایی براساس میزان عمومیت آن‌ها ساختاری سلسله مراتبی نسبت داده می‌شود. مانند روش Single Link، ولی در خوشه‌بندی مسطح تمامی خوشه‌های نهایی دارای یک میزان عمومیت هستند مانند k-means. به ساختار سلسله مراتبی حاصل از روش‌های خوشه‌بندی سلسله مراتبی دندوگرام گفته می‌شود(زهرا نوراله،1392).
با توجه به این‌که روش‌های خوشه‌بندی سلسله مراتبی اطلاعات بیش‌تر و دقیق‌تری تولید می‌کنند برای تحلیل داده‌هایی با جزییات بیش‌تر پیشنهاد می‌شوند، ولی از طرفی چون پیچیدگی محاسباتی بالایی دارند برای مجموعه داده‌های بزرگ روش‌های خوشه‌بندی مسطح پیشنهاد می‌گردد.
یکی از روش‌های معروف در این زمینه k-means می‌باشد، که علی‌رغم وابستگی به شرایط اولیه و همگرایی به نقاط بهینه محلی، تعدادN داده را به K خوشه با سرعت بالا، دسته‌بندی می‌نماید.
2-8-2-2- کشف قوانین انجمنیدراین کاربرد به دنبال پیداکردن یک مجموعه از قوانین وابستگی یا انجمنی هستیم که براساس آن قوانین بگوییم وجود کدامیک از مجموعه اشیاء بروجود چه مجموعه اشیاء دیگری اثرگذار است.
2-8-2-3- کشف الگوهای ترتیبیدراینجا به دنبال کشف الگوهای ترتیبی هستیم که وابستگی‌های ترتیبی محکمی را در میان وقایع مختلف نشان می‌دهند.
2-9- فنون داده‌کاویتاریخچه فنون داده‌کاوی به‌طور‌کلی نسبت به دیگر روش‌ها کمی متفاوت و برجسته‌تر می‌باشد. الگوریتم ژنتیک و شبکه‌های عصبی در راستای تلاش برای مدل کردن پردازش‌های زیست‌شناسی بر روی کامپیوتر به‌وجود آمده‌اند. استنتاج براساس حافظه، فنی است که به‌طور مستقیم از حوزه هوش‌مصنوعی آمده است و تحلیل پیوندی از نظریه گراف‌ها و کاربردهای آن در ساختارهای داده‌ها در علم کامپیوتر به‌وجود آمده است.
گونه‌ها و تعداد زیادی الگوریتم داده‌کاوی از حوزه‌های آماری، بازشناسی الگو، یادگیری ماشین و پایگاه‌داده‌ها وجود دارند. اغلب الگوریتم‌های داده‌کاوی بیشتر شامل ترکیبی از سه جزء زیر می‌باشند.
1.مدل
دربرگیرنده 2 عامل می‌باشد. تابع مدل (مثلاً خوشه‌بندی) و شکل بازنمایی مدل (مثلاً: تابع خطی ازچندین متغیر و تابع چگالی احتمال گوسی) مدل شامل پارامترهایی است که براساس داده‌ها تعیین می‌شوند. کلمه مدل، کاربرد بسیار زیادی دارد بنابراین می‌توان تفاسیر مختلفی نیز از آن داشت.
در گذشته رسم بر این بود که به دنبال مدل کردن روابط بودیم. بدون آن‌که توجهی به جنبه تئوری آن داشته باشیم، بنابراین به‌عنوان مثال می‌توانستیم یک مدل برارزشی را برای مرتبط کردن متغیری به چندین متغیر توضیحی و به‌دست آوردن مدل پیش‌گویآن‌های دقیق بدون داشتن هیچ‌گونه باور و اعتقادی به این‌که مدل نمایانگر مکانیزمی غیر رسمی است بسازیم یا اینکه بر این باور هستیم که مدل ساخته شده توضیح‌دهنده واقعیت مورد نظر می‌باشد، تا بدین ترتیب سبب افزایش یک متغیر و در نتیجه دیگر متغیرها بشویم. همچنین می‌توان مدل‌هایی را که برای پیش‌گویی به کار می‌روند از مدل‌هایی که برای کمک به فهم مسئله‌ای به کار می‌روند ازهم جدا نمود.
2.معیار اولویت
پایه‌ای برای اولویت یک مدل یا مجموعه‌ای از پارامترها نسبت به مدل یا پارامترهای دیگر براساس داده‌های موجود می‌باشد.
3.الگوریتم جستجو
مشخصات الگوریتم برای یافتن مدل‌ها و پارامترهای به‌خصوص است. الگوریتم داده‌کاوی معمولاً نمونه‌ای از اجزای مدل اولویت جستجو می‌باشد. (مثلاً طبقه‌بندی برمبنای بازنمایی درخت‌تصمیم‌گیری، اولویت مدل برمبنای احتمال داده‌ها که توسط جستجوی حریصانه با استفاده از مکاشفه‌ای به‌خصوص تعیین می‌شود).
الگوریتم‌ها اغلب برحسب بازنمایی مدل (مثلا خطی و سلسله مراتبی) تفاوت زیادی دارند و درالگوریتم‌های یادگیری، بازنمایی مدل، معیار اولویت یا روش جستجو مورد استفاده به شکل روشنی بیان نمی‌شوند، بلکه آن‌ها در توصیف الگوریتمی به‌خصوص ترکیب می‌شوند.

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *