مجازی سازی داده و انتقال داده

 

مجازی سازی داده (Data virtualization): در مجازی سازی، داده ها از منابع مختلف و فرمت های مختلف با هم ترکیب می شوند تا یک لایه مجازی را برای افراد و برنامه های مختلف ایجاد کنند. در مجازی سازی داده، نیازی به طی کردن فرآیند ساخت انبارداده و عملیات ای تی ال نیست و افراد درگیر جزئیات فنی در خصوص داده (مانند فرمت داده یا محل ذحیره سازی آن) نمی شوند. در مجازی سازی داده های غیر ساخت یافته مثل وب یا متن هم وجود دارد.

انتقال داده (Data movement): در انتقال، داده ها از منابع مختلف استخراج می شود و با کمک فرآیند ای تی ال (ETL) به یک انبار داده منتقل می شود. وجود انبار داده و انجام فرایند ای تی ال در انتقال داده ضروری است. در انتقال داده، داده های غیر ساخت یافته مانند متن یا وب وجود ندارد.

چه زمان هایی از مجازی سازی داده استفاده کنیم و چه زمانی از انتقال داده؟

زمانی که دیتاست های مختلف با هم جوین (Join) می شوند و سرعت و کارایی باید بسیار بالا باشد، از انتقال استفاده می کنیم.

زمانی که داده ها فقط یک بار در بازه های مختلف به انبار داده منتقل می شوند و بارها از آنها گزارش تهیه می شود، از انتقال استفاده می کنیم.

و در مورد تعداد زیادی کوئری موردی، بدون اجبار به سرعت بالا، از مجازی سازی داده استفاده می کنیم.

 

مجازی سازی داده چه مزایا و چه معایبی دارد؟

در مجازی سازی، عملیات ای تی ال انجام نمی شود بنابراین سربار جابجایی داده ها به شدت کاهش پیدا می کند. سرعت دسترسی به داده ها، به صورت بلادرنگ به طرز چشمگیری افزایش پیدا می کند (البته با این فرض که جوین (Join) های سنگینی بین جداول وجود نداشته باشد.). زمان توسعه و پیشتیبانی کاهش پیدا می کند. و فضایی جهت انبارداده لازم نیست.

از طرف دیگر به علت عدم استفاده از انبار داده، سوابق داده ها را به خوبی نگهداری نمی کند. یک مدل داده همگن را بکارنمیگیرد. بنابراین باید خود کاربر داده ها را تفسیر کند، مگر اینکه با مدل های دیگری ترکیب شده باشد. مدیریت تغییرات سربار بسیار زیادی دارد. زیرا هر تغییر باید توسط تمام برنامه های کاربردی و کاربرانی که داده با آنها به اشتراک گذاشته شده است مورد پذیرش قرار گیرد.

 

 

 

 

هوش تجاری و کسب و کارهای کوچک

در اوایل زندگی هوش تجاری، بسیاری از تحلیل گران معتقد بودند که هوش تجاری صرفا برای سازمان های بزرگ است. اما الان تحلیل ها تغییر کرده است و بسیاری از تحلیلگران معتقدند که تمام شرکت ها در تمامی سایزها به هوش تجاری نیاز دارند. هوش تجاری امکانات و ابزارهای مختلفی در اختیار کاربران اش قرار می دهد و سوالی که در اینجا مطرح می شود این است که کدام ابزار هوش تجاری برای کسب و کارهای کوچک مناسب است؟
برای پیدا کردن پاسخ این سوال، سایت های مختلفی را در اینترنت جستجو کردم. از فروشندگان ابزار هوش تجاری و دلایل آنها در پیشنهاد هوش تجاری به کسب و کارهای کوچک تا کسب و کارهای کوچک و تجربه آنها در استفاده از هوش تجاری.تقریبا تمام آنها بر روی سه ابزار زیر توافق داشتند.

دشبورد
منابع مالی، زمانی و نیروی انسانی در کسب و کارهای کوچک محدود است و متخصیص لاکچری مثل تحلیلگر داده در کسب و کارهای کوچک وجود ندارد. افراد اغلب چندین کار و تخصص را با هم انجام می دهند و زمان و انرژی زیادی را صرف یافتن داده و تحلیل آنها می کنند. دشبوردها دید سریع و ساده ای از شاخص های اصلی کسب و کار فراهم می کند و کارکنان شرکت های کوچک می توانند در کمترین زمان، بیشترین حجم داده مربوط به کسب و کار را دریافت کنند.

شاخص کلیدی عملکرد
دشبورد مهم است اما تمام ماجرا نیست. برای اینکه دشبورد مفید و قابل استفاده باشد، باید شاخص های درستی در آن قرار داشته باشد. شاخص ها با توجه به کسب و کار تعریف می شود و نشان دهنده مهم ترین معیارهای ارزیابی کسب و کار است. فرقی نمی کند که کسب و کار کوچک هستید یا سازمان بزرگ، در هر دو صورت باید هدف و چشم انداز داشته باشید و شاخص هایی برای پیگیری رسیدن به اهداف سازمان یا شرکت را تعریف کنید.

گزارش ساز
پیش از ظهور هوش تجاری، مدیران شرکت و سازمان به علت فقدان وجود دانش فنی لازم، جهت بررسی هر گزارش از وضعیت سازمان، باید درخواست تهیه گزارش را به واحد آی تی ارائه می دادند و نتیجه را از واحد آی تی دریافت می کردند. با ظهور هوش تجاری، یک لایه مفهومی بر روی پایگاه داده سازمان قرار گرفت و مدیران می توانستند با مراجعه به سامانه هوش تجاری، گزارشات خود را تهیه کنند. دقت کنید این قسمت از سامانه هوش تجاری که اصطلاحا گزارش ساز نامیده می شود، برخلاف واحد آی تی ۲۴ ساعت شبانه روز و ۷ روز هفته در دسترس است.
کسب و کار شما از کدام ابزار هوش تجاری استفاده می کند؟

کلان داده

برخی تحلیلگران معتقد هستند که کلان داده مانند جویندگان طلا در دهه ۱۸۴۰ است که در آن عده ای ثروت هنگفتی به دست آوردند و عده ای هم فرصت از دست دادند. برخی تحلیلگران نیز کلان داده را نفت قرن ۲۱ می دانند. در مقایسه کلان داده با نفت، همانطور که نفت مشکلاتی از قبیل جنگ و گرما به وجود آورده است، استفاده از کلان داده نیز ممکن است مشکلاتی از قبیل ریسک های امنیتی، نقض حریم شخصی و خطراتی که هنوز شناخته نشده است، را به وجود بیاورد.

کلمه “کلان داده” اولین بار توسط سیلیکون گرافیک (Silicon Graphics) در اواسط دهه ۱۹۹۰ به کار گرفته شد. در سال ۲۰۰۸ تعدادی از مجلات تکنولوژی محور از این کلمه برای اشاره به داده های حجیم –حدودا پتابایت- استفاده کردند اما در سال ۲۰۱۲ “کلان داده” رسانه ای شد. داستان های مربوط به کلان داده در رسانه های خبری، مانند “نیویورک تایمز”، “واشینگتون پست”، “اکونومیست”، “فوربز” و “مجمع جهانی اقتصاد” منتشر شد. کلمه کلان داده به طور افراطی در مورد هر موضوعی که مربوط به داده بود، حتی داده های بسیار کم، به کار گرفته می شد. به نظر می رسد با توجه به رسانه ای شدن واژه “کلان داده”، نهایتا این واژه جایگزین واژه های “هوش تجاری” و “تحلیل تجاری” در واژه نامه ها شود. از نقطه نظر افراد حرفه ای، کلان داده سه ویژگی اصلی دارد که آن را از هوش کسب و کار جدا می کند. این سه ویژگی عبارتند از: حجم، تنوع و نرخ تولید

حجم: هوش تجاری اغلب با داده های در حجم گیگابایت و ترابایت سر و کار دارد. در حالی که کلان داده، داده های در حجم پتابایت را در بر می گیرد.

نرخ تولید: انبار داده در هوش تجاری ممکن است به صورت هفتگی و با داده های مربوط  به روز رسانی شود اما در کلان داده نرخ تولید داده بسیار بالاست. به عنوان مثال، داده های تولید شده توسط   RFID (Radio Frequency Identification)، لاگ ها در سایت های تجارت الکترونیک، داده های موجود در شبکه های اجتماعی را در نظر بگیرید. سرعت تولید چنین داده بسیار بالاست. در کلان داده، نرخ تولید داده جدید و اجبار به تصمیم گیری سریع موجب توسعه تکنولوژی هایی شده است که نرخ تولید داده جدید را مدیریت کند.

تنوع: بیشتر سیستم های هوش کسب و کار، داده های سیستم های تراکنشی را تحلیل می کنند. اما از آنجاییکه انواع جدیدی از داده، دیجیتالی می شوند، کلان داده درگیر تحلیل انواع داده جدید مانند داده های متنی در توییتر، نظرات در شبکه های اجتماعی و وبلاگ ها، عکس، تصویر و ویدئو است.

تحلیلگر گارتنر، دگ لانی، اولین بار مفاهیم حجم، نرخ تولید و تنوع را در کلان داده در  دهه ۱۹۹۰ میلادی مطرح کرد. با توجه به ویژگی های کلان داده، استفاده و توسعه آن توسط شرکت های نوپا مانند یاهو، گوگل و فیس بوک دور از انتظار نیست. به تازگی، صنعت بازی و تجارت الکترونیک نیز به جمع استفاده کنندگان از کلان داده پیوسته اند. البته استفاده از کلان داده در جامعه پزشکی جهت یافتن درمان بیماری نیز متداول شده است. تروریسم نیز به تازگی از کلان داده استفاده می کند. در حادثه تروریستی دو ماراتن در بوستون آمریکا، FBI با کمک کلان داده توانست مجرمین را در بین میلیون ها عکس شناسایی کند.

 

متن کاوی

متن کاوی یک فرآیند نیمه خودکار برای استخراج الگو از حجم وسیعی از منابع داده غیر ساخت یافته مانند صفحات وب، صفحات متنی، شبکه های اجتماعی مانند توییتر … می باشد.

 

 

 

متن کاوی با داده کاوی متفاوت است. هر چند هدف هر دو یکی است. هر دو به دنبال شناسایی یک سری الگو های مفید در مجموعه ای از داده هستند. اما مجموعه داده ای در مورد هر دو متفاوت است. داده کاوی به شناسایی الگوها در منابع داده ای ساخت یافته و ذخیره شده در پایگاه داده های ساخت یافته مانند اس کیو ال سرور، اوراکل … می پردازد در حالی که متن کاوی با داده های غیر ساخت یافته مانند مستندات تهیه شده توسط نرم افزار ورد (Word)، فایل های پی دی اف، متن موجود در صفحات وب یا شبکه های اجتماعی سر و کار دارد.

متن کاوی در حوزه های مانند حوزه های قانونی (احکام دادگاه)، تحقیقات آکادمی (مقالات تحقیقق)، گزارش های مالی، پزشکی (گزارش ترخیص)، تکنولوژی (فایل های حق ثبت اختراع) و بازاریابی (توضیحات مشتریان) … کاربرد دارد.

از متن کاوی می توان در دسته بندی و فیلتر کردن ایمیل ها استفاده کرد. می توان ایمیل ها را بر اساس اهمیت آنها به صورت خودکار اولویت بندی کرد و به صورت خودکار به آنها پاسخ داد.

برخی از مهم ترین حوزه های متن کاوی عبارتند از:

  • خلاصه سازی: خلاصه سازی مستندات به منظور صرفه جویی در زمان.
  • طبقه بندی: تشخیص موضوع اصلی مستندات و طبقه بندی خودکار آنها در گروه هایی که پیش تر تعریف شده اند.
  • خوشه بندی: تشخیص موضوع اصلی مستندات و طبقه بندی خودکار آنها صرفا با توجه به شباهت آنها و نه بر اساس گروه هایی که قبلا تعریف شده اند.
  • پاسخ به سوالات: یافتن بهترین جواب برای سوالات مطرح شده.
  • استخراج اطالات: شناسایی کلمات کلیدی، و رابط بین متون از طریق جستجو برای دنباله های از پیش تعریف شده در متن