سیستم پردازش برداری متون

ژانویه

در واقع هیچ لغتی بدون در نظر گرفتن همسایگی هایش معنی خاصی ندارد. وقتی ما از یک کلمه یاد میکنیم، تجربه این همسایگی هاست که معنی های مختلف آن کلمه را برای ما تعیین میکند. در روش برداری کلامت اولین گام نسبت دادن مقدار عددی به هر یک از کلمات است.
در این روش هر کلمه ماتریسی از نسبت های کلمه در جمله و ... خواهد بود و هر جا که کلمه استفاده بشود این ماتریس در حقیقت مقدار مترادف کلمه خواهد بود. به صورت مشخص اولین نتیجه گیری ای که از این روش میشود انجام داد به این صورت است که کلماتی که معنی نزدیک هم دارند چون در شرایط مشخص استفاده میشوند اعداد نزدیک به هم پیدا میکنند و به راحتی مترادفین قابل دستیابی است. البته شاید هم ارزش کلمه بهتری به جای مترادف باشد
در گام دوم نسبت های کلمات در این روش قابل جمع و کسر است. یعنی تفاضل عددی دو کلمه مقداری معنی دار است که نتیجه گیری های مختلفی میشود انجام داد.
مثلا نسبت بین ایران به تهران برابر نسبت عراق به بغداد است
یا نسبت معلم به شاگرد مثل نسبت افلاطون به ارسطوست

طبیعتا دیتابیس هایی که برای مشخص کردن این نسبت ها استفاده میشود در صورت یکه بودن قابلیت مشخص کردم رسم الخط را نیز فراهم میکند. یعنی مشخص میکند این جمله در این ادبیات چقدر قابل ارایه است. از طرفی امکان ارایه جمله یا قانون جدید در ادبیات مشخص وجود دارد. به طور مثال با خواندن فرهنگ ارسطویی میتوانید یک قانون جدید را مطرح کنید و نسبت درستی این مطلب به نسبت ادبیات زبانی را مشخص کنیم.

این روش به طور کلی از روش های مدل پنهان مارکوف است که در این حالت حلقه گرافی تاثیر مستقیمی ندارد. در این روش شما با عددی که train شده است هر گونه پردازشی میکنید. البته ترکیب این ادبیات با روش های شبکه عصبی نتیجه های جالب تری خواهد دارد که در مدل های دیگر مطرح خواهد شد

نمونه خروجی های این سیستم
رابطه کلی
پایتخت + ایران -> تهران
کشور + میهن -> ایران
پدر +‌ گوساله -> گاو

رابطه نسبتی
کرمان - رفسنجان + اردکان -> یزد
برانکو - پرسپولیس + استقلال -> منصوریان
تهران - ایران + انگلیس -> لندن
روحانی - ایران + ترکیه -> اردوغان

این رابطه ها قابلیت بهبود زیادی دارند و تمام بررسی ها بر پایه ویکی پوده است.

ادامه مطلب

برچسب ها : Python , تکنولوژی , کامپیوتر/برنامه نویسی