در هر زبان، واژهها با توجه به نقش معنایی و نحوی خود در جلمه به شکلهای ظاهری متفاوتی حضور مییابند، این شکل ظاهری متفاوت از جهتی نشاندهنده معنای متفاوت این واژههاست، اما با توجه به این که تمامی آنها از یک ریشه مشتق شدهاند، از نظر معنا قرابت نسبتا زیادی خواهند داشت. ازهمین رو در بسیاری از کاربردهای پردازش زبان طبیعی و بازیابی اطلاعات، نیاز داریم تا همه مشتقات یک واژه را به ریشهی آن، که همان شکل ساده واژه میباشد، تبدیل نماییم. سامانهای که این تبدیل را انجام دهد اصطلاحا ریشهیاب واژه و یا Lemmatizer مینامیم.
برای ریشهیابی واژه روشهای متفاوتی از قبیل روشهای مبتنی بر قاعده، روشهای مبتنی بر واژهنامه یا وردنت، روشهای مبتنی بر یادگیری و ... وجود دارد که در این پژوهش این روشها بررسی و پیادهسازی میشوند.
- Manning, Christopher D, Prabhakar Raghavan, and Hinrich Schütze. Introduction to Information Retrieval. New York: Cambridge University Press, 2008. Print.
- Loponen, Aki, and Kalervo Järvelin. "A dictionary-and corpus-independent statistical lemmatizer for information retrieval in low resource languages." Multilingual and Multimodal Information Access Evaluation. Springer Berlin Heidelberg, 2010. 3-14.
- Sarabi, Zahra, Hooman Mahyar, and Mojgan Farhoodi. "ParsiPardaz: Persian Language Processing Toolkit." Computer and Knowledge Engineering (ICCKE), 2013 3th International eConference on. IEEE, 2013.