Skip to content

Latest commit

 

History

History
28 lines (20 loc) · 2.68 KB

lemmatizer.md

File metadata and controls

28 lines (20 loc) · 2.68 KB

در هر زبان، واژه‌ها با توجه به نقش معنایی و نحوی خود در جلمه به شکل‌های ظاهری متفاوتی حضور می‌یابند، این شکل ظاهری متفاوت از جهتی نشان‌دهنده معنای متفاوت این واژه‌هاست، اما با توجه به این که تمامی آن‌ها از یک ریشه مشتق شده‌اند، از نظر معنا قرابت نسبتا زیادی خواهند داشت. ازهمین رو در بسیاری از کاربردهای پردازش زبان طبیعی و بازیابی اطلاعات، نیاز داریم تا همه مشتقات یک واژه را به ریشه‌ی آن، که همان شکل ساده واژه می‌باشد، تبدیل نماییم. سامانه‌ای که این تبدیل را انجام دهد اصطلاحا ریشه‌یاب واژه و یا Lemmatizer می‌نامیم.

برای ریشه‌یابی واژه روش‌های متفاوتی از قبیل روش‌های مبتنی بر قاعده، روش‌های مبتنی بر واژه‌نامه یا وردنت، روش‌های مبتنی بر یادگیری و ... وجود دارد که در این پژوهش این روش‌ها بررسی و پیاده‌سازی می‌شوند.

مقدمه

کارهای مرتبط

آزمایش‌ها

کارهای آینده

مراجع

  • Manning, Christopher D, Prabhakar Raghavan, and Hinrich Schütze. Introduction to Information Retrieval. New York: Cambridge University Press, 2008. Print.
  • Loponen, Aki, and Kalervo Järvelin. "A dictionary-and corpus-independent statistical lemmatizer for information retrieval in low resource languages." Multilingual and Multimodal Information Access Evaluation. Springer Berlin Heidelberg, 2010. 3-14.
  • Sarabi, Zahra, Hooman Mahyar, and Mojgan Farhoodi. "ParsiPardaz: Persian Language Processing Toolkit." Computer and Knowledge Engineering (ICCKE), 2013 3th International eConference on. IEEE, 2013.

پیوندهای مفید