در هر زبان، واژه‌ها با توجه به نقش معنایی و نحوی خود در جلمه به شکل‌های ظاهری متفاوتی حضور می‌یابند، این شکل ظاهری متفاوت از جهتی نشان‌دهنده معنای متفاوت این واژه‌هاست، اما با توجه به این که تمامی آن‌ها از یک ریشه مشتق شده‌اند، از نظر معنا قرابت نسبتا زیادی خواهند داشت. ازهمین رو در بسیاری از کاربردهای پردازش زبان طبیعی و بازیابی اطلاعات، نیاز داریم تا همه مشتقات یک واژه را به ریشه‌ی آن، که همان شکل ساده واژه می‌باشد، تبدیل نماییم. سامانه‌ای که این تبدیل را انجام دهد اصطلاحا ریشه‌یاب واژه و یا Lemmatizer می‌نامیم.

برای ریشه‌یابی واژه روش‌های متفاوتی از قبیل روش‌های مبتنی بر قاعده، روش‌های مبتنی بر واژه‌نامه یا وردنت، روش‌های مبتنی بر یادگیری و ... وجود دارد که در این پژوهش این روش‌ها بررسی و پیاده‌سازی می‌شوند.

مقدمه

کارهای مرتبط

آزمایش‌ها

کارهای آینده

مراجع

Manning, Christopher D, Prabhakar Raghavan, and Hinrich Schütze. Introduction to Information Retrieval. New York: Cambridge University Press, 2008. Print.
Loponen, Aki, and Kalervo Järvelin. "A dictionary-and corpus-independent statistical lemmatizer for information retrieval in low resource languages." Multilingual and Multimodal Information Access Evaluation. Springer Berlin Heidelberg, 2010. 3-14.
Sarabi, Zahra, Hooman Mahyar, and Mojgan Farhoodi. "ParsiPardaz: Persian Language Processing Toolkit." Computer and Knowledge Engineering (ICCKE), 2013 3th International eConference on. IEEE, 2013.

پیوندهای مفید

پردازش زبان فارسی در پایتون
پیکره وابستگی نحوی زبان فارسی
فارس‌نت (وردنت فارسی)
یک نمونه برای زبان فارسی
یادگیری ماشین در پایتون
رابط توسعه ویراستیار
Difference Between Stemming and Lemmatization
Miltilingual open-source lemmatizer

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

lemmatizer.md

lemmatizer.md

مقدمه

کارهای مرتبط

آزمایش‌ها

کارهای آینده

مراجع

پیوندهای مفید

Files

lemmatizer.md

Latest commit

History

lemmatizer.md

File metadata and controls

مقدمه

کارهای مرتبط

آزمایش‌ها

کارهای آینده

مراجع

پیوندهای مفید