مفهوم انبار داده‌ها به اواخر دهه‌ی 1980 زمانی که محققان IBM، “بری دولین” و” پل مورفی”، “کسب و کار انبار داده‌ها” را توسعه دادند، باز می‌گردد. در اصل، مفهوم انبار داده‌ها با هدف ارائه یک مدل معماری، برای جریان داده‌ها از سیستم‌های عملیاتی به محیط پشتیبان تصمیم‌گیری در نظر گرفته شده بود. این مفهوم تلاش می‌کرد تا به مسائل مختلف در ارتباط با این جریان و عمدتا هزینه‌های بالای مربوط به آن رسیدگی نماید. در صورت فقدان معماری انبار داده‌ها، در محیط‌های پشتیبان تصمیم‌گیری چندگانه، مقدار زیادی از افزونگی لازم بود. در شرکت‌های بزرگتر، با توجه به متعدد بودن محیط‌های پشتیبان تصمیم‌گیری معمولا کار بر روی آن‌ها به طور مستقل انجام می‌شد. اگر چه هر محیطی به کاربران مختلفی خدمت می‌کرد، با این وجود، اغلب آن‌ها انبار داده‌های مشابهی را نیاز داشتند. معمولا فرآیند جمع‌آوری، پاک‌سازی و یکپارچه‌سازی داده‌ها از منابع مختلف در همه محیط‌ها بخشی تکراری بود. نیازهای جدید، اجرای جمع‌آوری، پاک‌سازی و یکپارچه‌سازی داده‌های جدید را در”Data Marts” که توسط کاربران طراحی و کنترل می‌شدند، ضروری می‌ساخت.

انبار داده به یک بانک اطلاعاتی وسیع گفته می‌شود که از طریق آن مدیران به تمامی‌داده‌های سازمان از گذشته تا حال برای تهیه گزارش و تجزیه وتحلیل دسترسی دارند، در نتیجه انبار داده نقشی پر رنگ در اتخاذ تصمیمات استراتژیک مدیران ایفا می‌کند. ممکن است داده‌ها قبل از قرارگیری بر روی انبار داده در یک فضای عملیاتی کوچکتر (Operational Data Store) قرار گیرند تا پردازش بر روی آن‌ها انجام گیرد.

انبار داده بر سه لایه staging، Integration  و Presentation استوار است، به این ترتیب که داده‌های خامی‌که از منابع اطلاعاتی مختلف به دست آمده‌اند در لایه Staging قرار می‌گیرد. در لایه بعدی یا Integration داده‌ها از نظر یکنواختی (نرمال‌سازی، حذف افزونگی و …) مورد بررسی قرار می‌گیرند. و در لایه آخر یا Presentation داده‌ها برای موارد مختلفی همچون گزارش‌گیری در دسترس کاربران قرار می‌گیرد.

انواع سیستم‌ها:

  • Data Mart

Data Mart یک فرم ساده از یک انبار داده‌ها است که در مورد یک موضوع واحد از قبیل فروش، امور مالی یا بازاریابی متمرکز است. Data Mart اغلب توسط یک بخش از سازمان ساخته و کنترل می‌شود. با توجه به تمرکز Data Mart بر روی یک موضوع، معمولا داده‌های تعداد محدودی از منابع را ترسیم می‌کند. این منابع می‌توانند سیستم‌های عملیاتی داخلی، یک انبار داده مرکزی، و یا داده‌های خارجی باشند.

  • پردازش تحلیلی آنلاین (OLAP)

با حجم نسبتا کمی‌از مبادلات توصیف می‌شوند. اغلب شامل پرس و جوهای بسیار پیچیده و تجمیع‌ها هستند. برای سیستم‌های OLAP، زمان پاسخ، یک شاخص اندازه‌گیری است. برنامه‌های OLAP به طور گسترده‌ای توسط تکنیک‌های داده‌کاوی استفاده می‌شوند. معمولا تأخیر سیستم‌های OLAP در حد چند ساعت است، در مقایسه با Data Mart ها که تأخیری نزدیک به یک روز دارند.

  • پردازش تراکنش آنلاین (OLTP)

با حجم زیادی از تراکنش‌های خطی کوتاه از قبیل حذف (DELETE)، به روز رسانی (UPDATE) و افزودن (INSERT) توصیف می‌شود. سیستم‌های OLTP بر روی پردازش پرس و جوهای بسیار سریع و حفظ تمامیت داده‌ها در محیط‌های Multi Access تأکید دارد. اندازه‌گیری تعداد تراکنش‌ها در هر ثانیه برای سیستم‌های OLTP مؤثر است. پایگاه‌های داده OLTP حاوی اطلاعات دقیق و جاری است. طرحی که برای ذخیره پایگاه‌ داده‌های تراکنشی استفاده می‌شود مدل موجودیتی

(entity Model) عموما 3NF است.

  • تجزیه و تحلیل پیش‌بینی شده

تجزیه و تحلیل پیش‌بینی شده، در مورد پیداکردن و تعیین کمیت الگوهای پنهان در داده‌ها با استفاده از مدل‌های پیچیده ریاضی است که می‌تواند برای پیش‌بینی نتایج آینده استفاده شود. تجزیه و تحلیل پیش‌بینی شده متفاوت از OLAP  است، چرا که OLAP بر روی تجزیه و تحلیل داده‌های تاریخی و واکنش‌ طبیعی‌ آنها تمرکز دارد، در حالی که تجزیه و تحلیل پیش‌بینی شده تمرکزش بر آینده است. این سیستم‌ها نیز برای مدیریت ارتباط با مشتری (CRM: Customer Relationship Management) مورد استفاده قرار می‌گیرند.

 

مزایا:

یک انبار داده یک کپی از اطلاعات سیستم‌های عملیاتی را در بر دارد. این پیچیدگی معماری این فرصت را فراهم می‌کند که:

  • با تجمیع داده‌ها از منابع متعدد درون یک پایگاه داده، برای نمایش داده‌ها می‌توان تنها از یک موتور پرس و جو استفاده کرد.
  • مشکلات قفل شدن پایگاه داده سیستم‌های عملیاتی با جداسازی اجراهای بزرگ، طولانی و تجزیه و تحلیل پرس‌وجوها از پایگاه داده‌های عملیاتی را کاهش داد. 
  • حفظ تاریخچه داده، حتی اگر سیستم‌های عملیاتی این داده ها را نگهداری نکنند، محقق می‌گردد.
  • با ادغام داده‌های سیستم‌های عملیاتی متعدد، توانایی ارائه دید متمرکز از تمامی‌داده‌های شرکت را خواهیم داشت. این مزیت همیشه ارزشمند است، به ویژه برای سازمان‌هایی که با این ادغام رشد می‌کنند (مانند هولدینگ‌ها).
  • بهبود کیفیت داده‌ها، با ارائه کد سازگار و توضیحات، نشانه‌گذاری یا حتی رفع مشکل داده‌های اشتباه فراهم می‌شود.
  • اطلاعات سازمان به طور مداوم ارائه می‌گردد.
  • یک مدل داده مشترک برای همه اطلاعات مفید، صرف نظر از منابع داده، نمود می‌یابد.
  • بازسازی داده‌ها به طوری که باعث ساده‌سازی برقراری ارتباط کاربران با داده‌ها شود.
  • بازسازی داده‌ها به طوری که باعث بهتر شدن عملکرد پرس‌وجوها شود، حتی برای پرس‌وجوهای تحلیلی پیچیده مورد استفاده قرار می‌گیرد.
  • ارزش دادن به برنامه‌های عملیاتی کسب‌وکار، به ویژه سیستم‌های مدیریت ارتباط با مشتری(CRM) انجام می‌گردد.
  • نوشتن پرس‌وجوهای پشتیبان تصمیم‌گیری ساده می‌شود.

انواع موارد استفاده از انبار داده‌ها در سازمان با توجه به سطح پیچیدگی آن‌ها

  • انبار داده‌های عملیاتی آفلاین

انبار داده‌ها در این مرحله از تکامل در چرخه زمان، از سیستم‌های عملیاتی و داده‌هایی که در گزارشات یکپارچه ذخیره شده‌اند، به طور منظم (معمولا روزانه، هفتگی و یا ماهانه) به روز رسانی می‌شوند.

  • انبار داده‌های آفلاین

انبار داده‌ها در این مرحله، با استفاده از داده‌های موجود در سیستم‌های عملیاتی به صورت منظم به روز شده و داده‌های آن‌ها در یک ساختار داده‌‌ای ذخیره می‌شود که این ساختار تهیه گزارش را تسهیل می‌بخشد.

  • انبار داده‌های آنلاین

انبار داده‌های یکپارچه‌ی آنلاین، داده‌های به روز را ارائه می‌دهند. در این مرحله، انبار داده‌ها ، به ازای اجرای هر تراکنش روی منابع اطلاعاتی، به روز می‌شوند.

  • انبار داده‌های یکپارچه

این انبار داده‌ها، داده‌ها را از بخش‌های مختلف کسب و کار جمع‌آوری می‌کنند، بنابراین کاربران می‌توانند اطلاعات موجود در سیستم‌های مختلف را در یک انبار داده جستجو نمایند.  

سوالی دارید از ما بپرسید
تلفن: 89326444-021

آنچه در این مقاله میخوانید