این وبلاگ متعلق به بسیج دانشگاه شفق تنکابن (نشتارود) می باشد.

متن كاوی : استخراج دانش از پایگاه های داده غیر ساخت یافته

با گسترش شگرف اینترنت و استفاده روزافزون از آن در جهت ارایه و یا كسب اطلاعات، شاهد حجم انبوهی از اسناد و مقالات بر- خط هستیم كه بعنوان یكی از مشخصات بارز زندگی مدرن امروزی، تحت عنوان افزونگی اطلاعاتی مطرح می‌گردد. در این میان دسترسی سریع و صحیح به منابع مهم و مورد علاقه، یكی از دغدغه های استفاده كنندگان از این منبع اطلاعاتی بسیار بزرگ است. آنچه امروزه از اهمیت بسیار زیادی برخوردار گردیده ، كمبود یا نبود اطلاعات نیست بلكه كمبود روشهایی در جهت یافت و بهره برداری از اطلاعات در دسترس به نحوی بهینه است. بعنوان مسئله ای آرمانی تر به دنبال روشهایی هستیم تا از اطلاعات موجود به كسب دانش پرداخته، احتمالاً به ارایه مسایل جدیدی بپردازد كه قبل از آن مشخص نبوده است.


متن كاوی ، بعنوان روشی در استخراج دانش از متون، یكی از موضوعات مهم در گستره ای از اعمال مدیریت اطلاعات است. در این میان آنچه از اهمیت فوق العاده ای برخوردار است ارایه راه‌كارهایی برای مواجه با این حجم عظیم اطلاعاتی و استفاده بهینه از اطلاعات در جهت خلق دانش، تولید سینرجی و در نهایت افزایش خرد جمعی است.
در سالهای اخیر اهمیت متون به عنوان منابع با پتانسیل اطلاعاتی بسیار بالا به نحو گسترده‌ای مورد توجه قرار گرفته به طوری كه كشف دانش از متون به عنوان یكی از مهمترین فعالیتهای محققین حوزه هوش مصنوعی و فناوری اطلاعات قرار گرفته است. تحقیقات بسیاری صورت گرفته اما محدوده فعالیت بقدری گسترده است كه نیازمند توجه بیشتری می‌باشد.
امروزه محققان به این مسئله معترفند كه با وجود انجام تحقیقات بی وقفه در زمینه كاری خود، نمی‌توانند همزمان با پیشرفت دانش، معلومات خود را به روز نگاه دارند. بعنوان مثال بانك اطلاعاتی Medline در حال حاضر حاوی 10 میلیون چكیده مقاله است و هر هفته بین هفت تا هشت هزار چكیده مقاله به این بانك اطلاعاتی افزوده می‌شود. در این بین شاید همه مقالات مربوط به یك دانش خاص نباشند، اما تعداد مقالات تخصصی كه در حوزه تحقیق یك دانش خاص قرار می‌گیرد به اندازه ای است كه یك نفر نمی‌تواند ادعا كند همه آنها را مطالعه كرده است بعلاوه نقش مطالعات عمیق و گسترده و استخراج ایده ها و دانش جدید از مطالب مطالعه شده بر كسی پوشیده نیست.
در این میان اینترنت بعنوان بزرگترین منبع اطلاعاتی همگانی، تشكیل یافته از صد ها میلیون صفحه اطلاعات است كه به جهت همگانی بودن آن و نبود آینده‌نگری كافی در زمان تشكیل و رشد آن ، متحمل نگاهداری اطلاعات نویسندگان، محققان ، اندیشمندان و غیره به همان نحوی كه آنها می نوشتند گردید. نبود یك استاندارد همه جانبه و دقیق در تنظیم متون و قرار گیری این مجموعه عظیم بصورتی غیر ساختیافته و یا بعضاً نیمه ساختیافته، جامعه اطلاعاتی را دچار نوعی سردر گمی و مشكل در دستیابی به اطلاعات مورد نیاز كرده بطوری‌كه برای یافتن مطالب مورد نظر خود متحمل هزینه های زمانی بسیاری می‌گردند. محققان به ارایه راه كارهایی برای ساخت یافته كردن اطلاعات نمودند و با ارایه زبانهای نشانه گذاری استاندارد نظیر XML تا حد زیادی جلوی این از هم پاشیدگی اطلاعاتی را گرفتند اما آنچه همچنان باقی است وجود بسیاری از متون غیر ساخت‌یافته می‌باشد؛ در همین راستا ارایه ابزاهایی كه با بررسی متون بتوانند تحلیلی روی آنها انجام دهند منجر به شكل گیری زمینه‌ای جدید در هوش مصنوعی و فناوری اطلاعات گردیده كه به یادگیری متن معروف است.
این حوزه تمام فعالیتهایی كه به نوعی به دنبال كسب دانش از متن هستند را شامل می‌گردد. آنالیز داده های متنی توسط تكنیكهای یادگیری ماشین، بازیابی اطلاعات هوشمند، پردازش زبان طبیعی یا روشهای مرتبط دیگر همگی در زمره مقوله یادگیری متن قرار می‌گیرند. یكی از روشهایی كه ذكر گردید، استفاده از تكنیكهای یادگیری ماشین در زمینه پردازش متن است، مسئله قابل تامل این است كه این تكنیكها در ابتدا در مورد داده های ساخت‌یافته به كار گرفته شدند و علمی به نام داده كاوی را بوجود آوردند. داده های ساخت‌یافته به داده هایی اطلاق می‌گردد كه بطور كاملاً مستقل از همدیگر ولی یكسان از لحاظ ساختاری در یك محل گردآوری شده اند. انواع بانكهای اطلاعاتی را می‌توان نمونه هایی از این دسته اطلاعات نام برد. در اینصورت مسئله داده كاوی عبارت از كسب اطلاعات و دانش از این مجموعه ساخت یافته. اما در مورد متون كه عمدتاً غیر ساخت یافته یا نیمه ساخت یافته هستند ابتدا باید توسط روشهایی ، آنها را ساختارمند نمود و سپس از این روشها برای استخراج اطلاعات و دانش از آنها استفاده كرد. به هر حال استفاده از داده كاوی در مورد متن خود شاخه ای دیگر را در علوم هوش مصنوعی بوجود آورد به نام متن كاوی . از جمله فعالیتهای بسیار مهم در این زمینه، طبقه بندی (دسته بندی) متن می‌باشد.
طبقه بندی متن، یعنی انتساب اسناد متنی بر اساس محتوی به یك یا چند طبقه از قبل تعیین شده، یكی از مهمترین مسایل در متن كاوی است؛ مرتب كردن بلادرنگ نامه های الكترونیكی یا فایلها در سلسله مراتبی از پوشه ها، تشخیص موضوع متن، جستجوی ساختیافته و/ یا پیدا كردن اسنادی كه در راستای علایق كاربر میباشد، از جمله كاربردهای مبحث طبقه بندی (دسته بندی-كلاسه بندی ) متن است. در بسیاری از موارد ، افراد حرفه ای آموزش دیده، برای طبقه بندی متون جدید به كار گرفته می‌شوند. این فرآیند بسیار زمان بر و پر هزینه است و لذا كاربرد خود را محدود می‌سازد، به همین منظور علاقه روزافزونی به توسعه فناوری هایی در دسته بندی خودكار متن ابراز میشود.
در هر حال در جوامع اطلاعاتی امروزی آنچه از اهمیت روزافزونی برخوردار است، اطلاعات و تبادل آن است و در این راستا به توسعه فناوری های مرتبط پرداخته می‌شود، اما یك مرحله كاملاٌ جدید تر و كاملاً مورد توجه جوامع فرا صنعتی، خلق دانش جدید از اطلاعات قبلی است كه این جوامع آنرا كلید موفقیت خود در آینده دانسته و به سختی در این زمینه فعالیت می‌نمایند. بر ما است تا ضمن ارتقای فناوری اطلاعات در كشور و ایجاد زیر ساختهای لازمه در اسرع وقت، به اینگونه مسائل جدی‌تر كه در زمره Information High Technology قرار می‌گیرند، بپردازیم.

+ نوشته شده در  جمعه ششم خرداد 1390ساعت 16:25  توسط مدیر وبلاگ  |