کتابخانه ها نمیتوانند نیاز کاربران را به سرعت تأمین نماینـد. بنـابراین، ضـرورت دارد کـه روش سـریع و اثربخشـی بـرای کمـک بـه کاربران خود بیابند. داده کاوی یک فناوری اطلاعاتی مهم و جدید است کـه بـرای شناسـایی داده های مهـم از میـان مقـادیر زیـادی از پیشینههای وسیع به کار میرود. به کلام دیگر، آن عبارت است از فرایند نمایاندن انگارههای پنهـان مهـم در یـک مجموعـه دادهای. سودمندی داده کاوی آن است که به طور موثری گرایشات موجود در یک صنعت یا حرفه را جستجو میکند و بازدههای مفیـدی بـرای سازمانهای حاوی مقادیر عظیم اطلاعات فراهم میکند .(Chan and Chen 2006)
بنابراین، برای استخراج اطلاعـات خـاص از اینترنـت، کتابخانهها، و سـایر مجموعههای دادهای از مفـاهیمی نظیـر داده کـاوی و ابزارهای مختلف مربوط به آن استفاده میشود. داده کاوی را تحلیل دادهها و استفاده از فنـون نـرم افـزاری بـرای یـافتن انگارهها١ و مقررات موجود در مجموعههای دادهای تعریف کردهاند .(Markov and Russell 2009) داده کاوی نام خـود را از شباهتهای موجـود در دو حوزه جستجوی اطلاعات ارزشمند در پایگاههای بزرگ و حفاری معادن برای استخراج رگههایی از سنگهای معدنی ارزشـمند به عاریت گرفته است؛ و ایـن دقیقاً همـان چیـزی اسـت کـه داده کـاوی بـدان اشـاره دارد: اسـتخراج اطلاعـات ارزشـمند از یـک پایگـاه اطلاعاتی بزرگ. داده کاوی نه تنها در صدد یافتن اطلاعات یا پاسخگویی به سوالاتی است کـه در ذهـن کـاربر وجـود دارد، بلکـه دانـش عمیقی که در دل دادهها نهفته است را نیز کشـف میکند. منظـور مـا از اسـتخراج دادهها شـامل هـر دو نـوع داده سـاختاریافته و غیرساختاریافته است