متن کاوی یک فرآیند نیمه خودکار برای استخراج الگو از حجم وسیعی از منابع داده غیر ساخت یافته مانند صفحات وب، صفحات متنی، شبکه های اجتماعی مانند توییتر … می باشد.
متن کاوی با داده کاوی متفاوت است. هر چند هدف هر دو یکی است. هر دو به دنبال شناسایی یک سری الگو های مفید در مجموعه ای از داده هستند. اما مجموعه داده ای در مورد هر دو متفاوت است. داده کاوی به شناسایی الگوها در منابع داده ای ساخت یافته و ذخیره شده در پایگاه داده های ساخت یافته مانند اس کیو ال سرور، اوراکل … می پردازد در حالی که متن کاوی با داده های غیر ساخت یافته مانند مستندات تهیه شده توسط نرم افزار ورد (Word)، فایل های پی دی اف، متن موجود در صفحات وب یا شبکه های اجتماعی سر و کار دارد.
متن کاوی در حوزه های مانند حوزه های قانونی (احکام دادگاه)، تحقیقات آکادمی (مقالات تحقیقق)، گزارش های مالی، پزشکی (گزارش ترخیص)، تکنولوژی (فایل های حق ثبت اختراع) و بازاریابی (توضیحات مشتریان) … کاربرد دارد.
از متن کاوی می توان در دسته بندی و فیلتر کردن ایمیل ها استفاده کرد. می توان ایمیل ها را بر اساس اهمیت آنها به صورت خودکار اولویت بندی کرد و به صورت خودکار به آنها پاسخ داد.
برخی از مهم ترین حوزه های متن کاوی عبارتند از:
- خلاصه سازی: خلاصه سازی مستندات به منظور صرفه جویی در زمان.
- طبقه بندی: تشخیص موضوع اصلی مستندات و طبقه بندی خودکار آنها در گروه هایی که پیش تر تعریف شده اند.
- خوشه بندی: تشخیص موضوع اصلی مستندات و طبقه بندی خودکار آنها صرفا با توجه به شباهت آنها و نه بر اساس گروه هایی که قبلا تعریف شده اند.
- پاسخ به سوالات: یافتن بهترین جواب برای سوالات مطرح شده.
- استخراج اطالات: شناسایی کلمات کلیدی، و رابط بین متون از طریق جستجو برای دنباله های از پیش تعریف شده در متن