داده کاوی (Data Mining)

داده کاوی به استخراج یا کاوش دانش از مقادیر بزرگی از داده ها اشاره می نماید. اصطلاحاتی که برای نامگذاری داده کاوی مناسب هستند،  'استخراج دانش از داده ها' یا 'استخراج دانش'  نامیده می شود.

جمع آوری داده ها و فناوری ذخیره سازی آن ها، این امکان را برای سازمان ها فراهم ساخته است که حجم بسیاری از داده ها را در کمترین زمان ممکن استخراج نمایند. بهره برداری این داده‌های ذخیره شده، به منظور استخراج اطلاعات مفید و عملی ، هدف کلی از فعالیتی عمومی است که به عنوان داده کاوی شناخته می شود.

داده کاوی فرآیند کشف و تجزیه و تحلیل به صورت اتوماتیک یا نیمه اتوماتیک، از مقادیر بسیار داده به منظور کشف الگوها و قوانین معنی دار است.

داده کاوی یک شاخه بین رشته ای از علوم کامپیوتر است که شامل فرآیند کشف الگوها از مجموعه بزرگی از داده هاست. هدف از این فرآیند تجزیه و تحلیل پیشرفته، استخراج اطلاعات از یک مجموعه داده و تبدیل آن به یک ساختار قابل فهم برای استفادههای بعدی است. روش های استفاده شده تلفیقی از هوش مصنوعی، یادگیری ماشین، آمار و سیستم های پایگاه داده و هوش کسب و کار هستند.

داده کاوی به عنوان یک فرآیند ضروری است که در آن روش‌های هوشمند برای استخراج الگوهای داده ای به کار می روند.

داده کاوی شامل ۵ عنصر اصلی است:

  1. عملیات استخراج، تبدیل و بارگذاری داده ها بر روی سیستم انبار داده.
  2. ذخیره و مدیریت داده ها در یک سیستم پایگاه داده چند بعدی.
  3. ارائه دسترسی به داده ها برای تحلیل گران کسب و کار و متخصصین فناوری اطلاعات.
  4. تجزیه و تحلیل داده با استفاده از نرم‌افزار کاربردی.
  5. نمایش داده ها در یک فرمت مناسب نظیر گراف یا جدول.

قابلیت های داده کاوی به منظور مشخص کردن نوع الگوهای یافت شده، مورد استفاده قرار می گیرند. 

داده کاوی به دو نوع تقسیم بندی می شود:

  • توصیفی
  • پیش گویانه

وظیفه داده کاوی از نوع توصیفی مشخص نمودن ویژگی های عمومی داده های موجود در پایگاه داده است. وظیفه داده کاوی از نوع پیش گویانه استنتاج بر روی داده های فعلی به منظور انجام پیش بینی است.

به طور کلی، هدف داده کاوی ایجاد یک مدل توصیفی یا یک مدل پیش گویانه است.

یک مدل توصیفی، مشخصات اصلی مجموعه داده را ارائه می دهد. این اساساً خلاصه‌ای از نقاط داده ای است که مطالعه جنبه های مهم از مجموعه داده را ممکن می نماید. معمولا مدل توصیفی نوع غیرمستقیمی از داده کاوی است. داده کاوی غیرمستقیم، الگوهای موجود در مجموعه داده را پیدا می کند اما تفسیر آن ها را به کاوشگر داده واگذار می نماید. 

هدف از مدل پیش گویانه این است که به کاوشگر داده اجازه می دهد یک ارزش ناشناخته (که اغلب در آینده رخ می دهد) را از یک متغیر مشخص، پیش بینی نماید. اگر ارزشی که هدف یافتن آن است، یکی از اعضای کلاسی از پیش تعریف شده باشد، این نوع از داده کاوی را طبقه بندی (Classification) گویند. اگر متغیر هدف، یک مقدار واقعی داشته باشد، داده کاوی از نوع رگرسیون است. 

هسته فرایند داده کاوی، استفاده از تکنیک های داده کاوی است. برخی از تکنیک های داده کاوی به طور مستقیم اطلاعات را با انجام یک پارتیشن بندی توصیفی از داده بدست می آورند. در اغلب موارد، تکنیک های داده کاوی، داده‌های ذخیره شده را به منظور ساختن یک مدل پیش‌ گویانه استفاده می کنند. از دیدگاه کلی، توافق قوی میان پژوهشگران و مدیران در مورد معیاری که تمام تکنیک های داده کاوی باید آن را احراز نمایند، وجود دارد. مهمتر از همه باید تکنیک ها، کارآیی بالا داشته باشند. 

طبقه بندی و پیش‌بینی دو شکل از تجزیه و تحلیل داده است که می‌تواند برای استخراج مدل هایی استفاده شوند که کلاس های داده ای مهم را توصیف می نمایند و یا روند داده هایی که امکان رویارویی با آن ها در آینده وجود دارد را پیش بینی می کنند. 

 

روش های داده کاوی: 

۱- شبکه عصبی (Neural Network) 

شبکه عصبی یا شبکه عصبی مصنوعی یک سیستم زیستی است که الگوها را تشخیص می‌دهد و پیش‌بینی ها را می سازد. بزرگترین پیشرفت ها در شبکه عصبی در سال‌های اخیر رخ داده است و از آن برای حل مسائل دنیای واقعی مانند پیش بینی پاسخ به مشتری، تشخیص تقلب و غیره استفاده شده است. تکنیک های داده کاوی از نوع شبکه عصبی قادر به مدل کردن روابطی است که در مجموعه داده ها وجود دارد و از این رو  می‌تواند برای هوش کسب و کار در سراسر انواع برنامه‌های کسب و کار استفاده شود. این تکنیک مدلسازی که برای پیش بینی استفاده می شود، بسیار قدرتمند است و مدل های بسیار پیچیده ای را ایجاد می نماید که در مواردی حتی قابل درک توسط کارشناسان نیست. 

 

 

۲- درخت های تصمیم گیری (Decision Trees)

یک درخت تصمیم گیری یک فلوچارت است که در ساختار آن، هر گره در درخت یک آزمون را بر روی یک مقدار که به صفتی تعلق دارد، مشخص می نماید. هر شاخه از درخت یک خروجی از آزمون است و سطوح درخت، کلاس ها یا توزیع کلاس ها را مشخص می کند. درخت تصمیم گیری یک مدل پیش گویانه است که در اغلب موارد برای طبقه بندی مورد استفاده قرار می گیرد. درخت های تصمیم گیری، فضای ورودی را به سلول هایی تقسیم بندی می کنند که هر سلول نماینده یک کلاس است. این تقسیم بندی، توالی ای از آزمون ها را مشخص می کند. هر گره داخلی در درخت تصمیم گیری، مقدار برخی متغیرهای ورودی را تست می‌کند و شاخه‌هایی از گره با نتایج احتمالی آزمون برچسب گذاری می شوند. گره های برگ سلول ها را نشان می دهند و کلاسی را مشخص می کنند که در صورت رسیدن به آن گره مورد نیاز است. هر یک از نمونه های ورودی با آغاز از ریشه درخت و با توجه به نتایج آزمون ها و پس از طی کردن مسیرهای مشخصی از شاخه ها، به یک برگ انتهایی می رسد و در طبقه بندی مشخصی قرار می گیرد.

 

3- الگوریتم ژنتیک (Genetic Algorithm) 

الگوریتم ژنتیک، تلاش در جهت ترکیب ایده های طبیعی دارد. ایده پشت الگوریتم ژنتیک، آن چیزی است که ما می توانیم به واسطه آن، یک راه حل مناسب را بسازیم و این کار با ترکیب بخش های "خوب" از راه حل های دیگر محقق می گردد و درست مشابه طبیعت ترکیب DNA ها در موجودات زنده است. 

الگوریتم ژنتیک اساسا به عنوان یک استراتژی، حل مسئله به منظور ارائه یک راه حل بهینه به کار می رود. این رویکرد بهترین روش برای حل مسائلی است که کمترین شناخت نسبت به آن ها وجود دارد. آن ها به راحتی در هر فضای جستجویی مورد استفاده قرار داده می شوند، زیرا الگوریتم های عمومی تری هستند. 

 


برگرفته از: Data Mining Techniques

ترجمه: ملیحه شعبانی


 

درباره رایورز

شرکت مهندسی نرم‌افزار رایورز در اوایل سال 1368 توسط جمعی‌از فعالین حرفه نرم‌افزار تأسیس گردید...

بیشتر بدانید

ارتباط با ما

  • تهران، خيابان ولی عصر، نرسيده به توانير، خيابان احتشام، شماره 5
  • 89326000

  • BPMS@rayvarz.com

خبرنامه پایگاه دانش BPM