تأثیر بسزای استفاده از فنون پردازش زبان طبیعی در کارآمدی بازیابی اطلاعات بین زبانی فارسی- انگلیسی

دکتر حمید علیزاده دانش آموخته دوره دکتری رشته علوم کتابداری و اطلاع رسانی دانشگاه فردوسی مشهد و عضو گروه پژوهشی زبانشناسی رایانه ای در مرکز منطقه ای اطلاع رسانی علوم و فناوری است. وی هم اکنون در پست معاونت پژوهشی این مرکز مشغول به فعالیت می باشد. پایان نامه دکترای ایشان با عنوان «بررسی کارآمدی روشهای موجود در بازیابی اطلاعات بین زبانی فارسی – انگلیسی با استفاده از واژه نامه دو زبانه ماشین خوان» در اولین جشنواره علمی سیمرغ که از سوی شرکت نوسا برگزار گردیده است حائز رتبه اول شده است. پایگاه خبری کتابداری و اطلاع رسانی ایران (لیزنا) به منظور کسب اطلاع از اهمیت پژوهش وی و نتایج آن، با ایشان گفتگویی انجام داده شده است :
دکتر حمید علیزاده، در خصوص کارآمدی روشهای موجود در بازیابی اطلاعات بین زبانی فارسی – انگلیسی با استفاده از واژه نامه دو زبانه ماشین خوان گفت: با گسترش روزافزون استفاده از اینترنت و غلبه بر محدودیت های دسترسی به اطلاعات که به مدد توسعه فناوری اطلاعات و ارتباطات حاصل شده است، کاربران دیگر تنها به منابع اطلاعاتی که به زبان آنها نوشته شده است اکتفا نمی کنند بلکه دسترسی به اطلاعات مرتبط در سایر زبانها را نه آرزو، بلکه حق طبیعی خود می دانند. امروزه وظیفه بازیابی اطلاعات به فرایندهای سنتی آن محدود نمی شود، بلکه هدفهای گسترده تر، یعنی غلبه بر موانع زبانی در هنگام جستجو و بازیابی اطلاعات نیز در این حوزه مطرح شده است.
• برای تبادل اطلاعات در این جامعه اطلاعاتی چند زبانه، دیگر مطلوب نیست که به اطلاعات یک زبان خاص محدود شد.
وی افزود: تعداد زبان های زنده دنیا را چیزی حدود ۴۵۰۰ زبان تخمین می زنند، که از میان آن ها در حدود ۳۰ زبان وجود دارد که هرکدام توسط حداقل ۳۰ میلیون نفر استفاده می شود. بدیهی است که برای تبادل اطلاعات در این جامعه اطلاعاتی چند زبانه، دیگر مطلوب نیست که به اطلاعات یک زبان خاص محدود شد.
دکتر حمید علیزاده در ادامه ضمن اشاره به گسترش روزافزون منابع اینترنتی به زبان های مختلف ابراز داشت: اینترنت به عنوان محل ظهور این زبان ها بیشترین نمود این گوناگونی را به خود اختصاص داده است. آمارها نشان می دهد که استفاده از اینترنت در چند سال اخیر رشد قابل ملاحظه ای داشته است. این نرخ رشد به ویژه در خاورمیانه، آمریکای جنوبی و آفریقا بسیار چشمگیر است. این تنوع جغرافیایی با تنوع زبانی نیز همراه است. بطوری که با رشد منابع اینترنتی، مشکلات و هم سودمندی دسترسی و بهره گیری از منابع به زبانهای دیگر نیز بیشتر شده است.
• راه حل اصلی غلبه بر مشکلات زبانی در بهره گیری از منابع در محیط های چند زبانه بازیابی اطلاعات بین زبانی است.
عضو گروه پژوهشی زبانشناسی رایانه ای مرکز منطقه ای اطلاع رسانی علوم و فناوری تأکید کرد: راه حل اصلی غلبه بر مشکلات زبانی در بهره گیری از منابع در محیط های چند زبانه بازیابی اطلاعات بین زبانی است.
وی در ادامه در تبیین مفهوم بازیابی اطلاعات بین زبانی تصریح کرد: بازیابی اطلاعات بین زبانی نوعی از بازیابی اطلاعات است که در آن حداقل دو زبان حضور دارد، زبان عبارت جستجو و زبان مجموعه مدرک. زبان عبارت جستجو را زبان اصلی و زبان مجموعه مدرک را زبان هدف یا مقصد می نامند. یک نظام بازیابی اطلاعات بین زبانی، مدرک را در زبانی که با زبان عبارت جستجو متفاوت است بازیابی می کند. در این شیوه، کاربر عبارت جستجو را به زبان بومی خویش ارائه می کند، اما مدارک دریافتی به زبان مجموعه مدرک خواهد بود. این نظام کار جستجوگرانی را که به چند زبان تسلط دارند ساده می کند و در عین حال جستجوگرانی را که تنها به یک زبان تسلط دارند، قادر می سازد عبارت جستجو را به زبان خود ارائه کرده و آنگاه با استفاده از دانش خود یا با بهره گیری ازکمک دیگران، بین مدارک بازیابی شده تمایز قائل شوند. سپس مدارکی را که مربوط تشخیص داده می شود، با استفاده از عامل انسانی یا ماشینی ترجمه شده و مورد استفاده قرار می گیرد.
دکتر علیزاده ابراز کرد: در بازیابی اطلاعات بین زبانی، هم مدرک و هم عبارت جستجو می تواند ترجمه شود. چون ترجمه عبارت جستجو در مقایسه با ترجمه مدرک هم ارزان تر است و هم به صرف وقت و کار علمی کم تری نیاز دارد، در پژوهش های انجام شده در این حوزه بیشتر به ترجمه عبارت جستجو توجه شده است.
• در ترجمه عبارت جستجو سه رویکرد عمده وجود دارد: استفاده از ترجمه ماشینی، استفاده از واژه نامه های ماشین خوان و استفاده از پیکره های متن.
وی در ادامه به توضیح رویکردهای موجود در ترجمه عبارت جستجو پرداخت: در ترجمه عبارت جستجو سه رویکرد عمده وجود دارد: استفاده از ترجمه ماشینی، استفاده از واژه نامه های ماشین خوان و استفاده از پیکره های متن. هر کدام از این رویکرد ها، نقاط ضعف و قوت خود را دارد . نتایج پژوهش ها نشان داده است که میزان پیشرفت هایی که در ترجمه ماشینی حاصل شده است در مقایسه با هزینه هایی که صرف تحلیل زبانشناسی در نظام می شود اندک بوده است. ماشین های ترجمه موجود توانایی چندانی در ترجمه دقیق مفاهیم مطرح شده در مدرک را ندارند. بنابراین اغلب تلاشها بر ترجمه عبارت جستجو متمرکز شده است؛ زیرا عبارت جستجو در مقایسه با کل یک مدرک از کلمات کمتری تشکیل می شود و در نتیجه ابهام کمتری در ترجمه آن مشاهده می شود. استفاده از پیکره های متن هم نقطه ضعف خود یعنی کمبود منابع قابل استفاده در زبان های مختلف را دارد. مجموعه های متن همیشه به راحتی در دسترس نیستند و موارد اندک موجود هم نسبتا کوچک بوده و یا فقط حجم اندکی از موضوعات را پوشش می دهد.
دانش آموخته دوره دکتری کتابداری و اطلاع رسانی دانشگاه فردوسی مشهد در ادامه گفت: در رویکرد ترجمه عبارت جستجو با استفاده از واژه نامه، عبارت های جستجوی زبان اصلی را بوسیله یافتن برابرنهاده هر اصطلاح در واژه نامه دوزبانه الکترونیکی ترجمه می کنند. نتیجه این کار یک عبارت جستجو در زبان مجموعه مدارک (زبان هدف) است که با در نظر گرفتن بعضی یا تمام برابرنهاده ها تولید می شود. بدیهی است پذیرش این نظام توسط کاربر تا حد بسیار زیادی به کارآمدی شیوه ای که عبارت های جستجو به آن شیوه ترجمه می شود بستگی دارد.
سپس دکتر علیزاده در خصوص اهمیت «بازیابی اطلاعات بین زبانی فارسی- انگلیسی» اظهار داشت: زبان فارسی یکی از مهم ترین و قدیمی ترین زبانهای زنده دنیا است. این زبان، زبان مادری میلیونها نفر در ایران، تاجیکستان، افغانستان و بسیاری از ایرانی های مهاجر در سطح جهان است. میلیونها نفر دیگر نیز در این کشورها و سایر کشورهای جهان از این زبان به عنوان زبان دوم استفاده می کنند. وجود متخصصان غیر فارسی زبان که سالها است در مورد این زبان تحقیق می کنند و ایجاد رشته های آموزش زبان فارسی در بسیاری کشورها، دلیلی دیگر بر اهمیت این زبان است. با گسترش زیاد دسترسی به اینترنت میان فارسی زبانان، امروزه رفته رفته بهره گیری از منابع شبکه ای به رفتار غالب در زندگی علمی و اجتماعی قشرهای مختلف جامعه فارسی زبان تبدیل شده است. آنگونه که پیشتر گفته شد، استفاده از اینترنت در میان مردم خاورمیانه- که فارسی زبانها بیشتر در این ناحیه مستقر شده اند- رشد بسیاری داشته است، اما علی رغم این رشد فزاینده و نیز افزایش قابل ملاحظه منابع فارسی در اینترنت، باز هم میزان منابعی که در دسترس کاربران فارسی قرار دارد در مقایسه با سایر زبان های اصلی اندک است.
وی در ادامه تأکید کرد: این وضعیت هنگامی مایوس کننده به نظر می آید که بدانیم فقط درصد کمی از جمعیت فارسی زبان (حتی در میان تحصیلکردگان) مهارت استفاده از منابع اینترنتی انگلیسی زبان را دارند. به این دلیل منابع اطلاعاتی میلیونها فارسی زبان که به اینترنت دسترسی دارند یا نیازمند استفاده از پایگاههای اطلاعاتی بزرگ هستند، بسیار محدود می باشد. این مساله با توجه به دریای بیکران اطلاعات که در اختیار جامعه انگلیسی زبان (و تا حدی سایر زبانهای پرکاربرد) قرار دارد ناراحت کننده است و البته تبعات آن می تواند عدم دسترسی به نتایج آخرین تحقیقات علمی باشد که این خود عقب ماندن از قافله علم و پیشرفت را به دنبال دارد.
دکتر حمید علیزاده گفت: نکته دیگر آنکه حتی در مقایسه با زبانهای مورد استفاده در سایر کشورهای همجوار مثل ترکی و عربی، حجم تحقیقات حوزه بازیابی اطلاعات در مورد زبان فارسی اندک به نظر می رسد. شاهد این مدعا وجود سمینارهای متعدد در TREC و سایر مجامع مرتبط با بازیابی اطلاعات بین زبانی در مورد زبان های غیر انگلیسی است (چنانکه به طور مثال ترک ۲۰۰۱ محور اصلی خود را بازیابی اطلاعات بین زبانی عربی- انگلیسی قرار داد).
• تعریف های ارائه شده در واژه نامه ها برای استفاده انسان طراحی شده است، اما این شیوه طراحی باعث سردرگمی نظام های رایانه ای در هنگام ترجمه خودکار می گردد.
در ادامه معاون پژوهشی مرکز منطقه ای اطلاع رسانی علوم و فناوری در تبیین رویکرد مورد استفاده در پژوهش اظهار داشت: در پژوهش خود به بررسی رویکردهای موجود در بازبینی فارسی- انگلیسی مبتنی بر واژه نامه دوزبانه الکترونیکی پرداختم. اگرچه در مقایسه با ترجمه ماشینی و پیکره های متنی، استفاده از واژه نامه های الکترونیکی شیوه برگزیده تری است، اما استفاده از این شیوه نیز مسایل و مشکلات خاص خود را دارد. یکی از این مشکلات آن است که منابع واژگانی مناسب برای ترجمه چندان در دسترس نیستند.
وی افزود: اگرچه زبان هایی چون زبان انگلیسی با مشکلات کمتری در این زمینه مواجه هستند اما زبان های دیگر مثل زبان فارسی که در این پژوهش زبان اصلی عبارت های جستجو به حساب می آید با چنین مشکلی روبرو است. یکی از دلایل این امر نوپا بودن طراحی و استفاده از واژه نامه های الکترونیکی در زبان فارسی است. واژه نامه های موجود نیز دارای کاستی های بسیاری ( از قبیل پوشش ناکافی و عدم یکدستی در نحوه ارایه برابرنهاده ها) است. محتوای ارائه شده در این واژه نامه ها در جهت استفاده بهینه در ترجمه عبارت های جستجو، به پردازش های زبانشناختی متعددی نیازمند است. درواقع تعریف های ارائه شده در واژه نامه ها برای استفاده انسان طراحی شده است، اما این شیوه طراحی باعث سردرگمی نظام های رایانه ای در هنگام ترجمه خودکار می گردد. این موضوع به ویژه در هنگام انتخاب برابرنهاده مناسب برای اصطلاح های مورد ترجمه رخ می دهد. کاربر انسانی به مدد تجربیات قبلی و زمینه موضوعی، از میان چند برابرنهاده یکی را انتخاب می کند اما نظام رایانه ای در این انتخاب با مشکل روبرو است.
دکتر حمید علیزاده در خصوص رویکردهای ترجمه با واژه نامه های دو زبانه ماشین خوان افزود: به طور کلی در ترجمه با واژه نامه های دو زبانه ماشین خوان دو رویکرد عمده وجود دارد. در نخستین رویکرد که با نام هربرابرنهاده ( یا تک تک برابرنهاده ها) شناخته می شود، همه برابرنهاده هایی که برای یک اصطلاح خاص در یک واژه نامه دوزبانه ماشین خوان وجود دارد در نظر گرفته می شود. در این روش ترجمه، واژه های عبارت جستجوی فارسی با جایگزین کردن آنها به وسیله معادلهای زبان هدف( انگلیسی) ترجمه می شود. این روش به این دلیل که اصطلاح های بعضا نامربوط را به عبارت جستجوی ترجمه شده به زبان هدف اضافه می کند می تواند منجر به بروز ابهام در ترجمه گردد که این خود منجر به کارایی ضعیف در بازیابی می گردد. از سوی دیگر این روش می تواند گونه ای از بسط جستجو تلقی شود که به مدد ترجمه با واژه نامه انجام می گردد.
• استفاده از فنون پردازش زبان طبیعی تاثیر بسزایی در کارآمدی بازیابی اطلاعات بین زبانی فارسی- انگلیسی دارد.
وی در ادامه افزود: شیوه بعد روش انتخاب اولین برابرنهاده نام دارد. دراین روش به جای در نظر گرفتن همه برابرنهاده های زبان هدف برای یک اصطلاح خاص، فقط از اولین برابرنهاده استفاده می شود. مزیت این رویکرد در این نکته نهفته است که معمولا نظم ارایه معادل برای لغات در واژه نامه ها بر اساس استفاده معمول آنها است، که به این ترتیب پراستفاده ترین برابرنهاده برای یک واژه در ابتدا می آید و سایر برابرنهاده ها بعد از آن ظاهر می شود. شیوه اولین برابرنهاده، واژه های کم استفاده را در نظر نمی گیرد. بنابر این به طور بالقوه می تواند باعث کاهش ابهام در ترجمه و کارآمدی بازیابی گردد(البته باید به این نکته نیز اشاره کرد که در بسیاری از واژه نامه ها، اصولا این روش استفاده نمی شود و مثلا برابر نهاده ها به لحاظ دستوری مقوله بندی شده و برای مثال ابتدا “اسم” می آید و سپس “صفت” و بعد سایر شکل های کلمه می آید. بعضی از واژه نامه ها هم برابرنهاده ها را نه از روی بیشترین استفاده بلکه به صورت الفبایی می آورند. در نهایت می توان گفت ماهیت زبان طبیعی که در فرایند بازیابی اطلاعات بین زبانی استفاده می شود(ارائه عبارت جستجو به زبان اصلی، ترجمه و ساخت عبارت جستجوی جدید و بازیابی اطلاعات در زبان هدف همگی بر اساس زبان طبیعی صورت می پذیرد) نشان دهنده لزوم بهره گیری از فنون پردازش زبان طبیعی و زبانشناسی رایانه ای برای دستیابی به کارآمدی در اجرای نظام بازبین است.
دکتر علیزاده در پایان یافته های اساسی پژوهش را اینگونه بیان کرد: در پژوهش مذکور، کارآمدی شیوه های موجود در بازیابی اطلاعات بین زبانی فارسی- انگلیسی با رویکرد واژه نامه دوزبانه ماشین خوان بررسی گردید. بررسی میزان تاثیر انجام پردازش های زبان طبیعی بر روی ترجمه عبارت های جستجو مساله اساسی این پژوهش بود. فنون پردازش زبان طبیعی که در این پژوهش بکار گرفته شد شامل قطعه بندی متن، شناخت گونه های زبانشناختی، حذف سیاهه بازدارنده، تحلیل مورفولوژیک( ساخت واژه) و برچسب زنی انواع کلام بود. در نهایت یافته های این پژوهش نشان داد که استفاده از فنون پردازش زبان طبیعی تاثیر بسزایی در کارآمدی بازیابی اطلاعات بین زبانی فارسی- انگلیسی دارد.
   ۱۳۸۹/۸/۱۸

مشتاقانه منتظر دریافت نظرات شما دوستان عزیز هستیم