این پروژه به منظور شناسایی نویسنده یک متن بر اساس ویژگیهای موجود در آن ایجاد شده است. مجموعه دادهای شامل اطلاعات مربوط به متنهای قبلی نویسندگان مختلف به عنوان دادههای آموزشی برای آموزش مدل یادگیری ماشین فراهم شده است. هدف اصلی این پروژه، توسعه مدلی است که قادر به پیشبینی نویسنده یک متن جدید بر اساس ویژگیهای آن باشد.
این پروژه شامل یک مجموعه داده با ۳۸۱ ستون است که هر سطر آن مربوط به یک متن از نویسندگان مختلف است. ویژگیهای مجموعه داده به صورت باینری هستند و نشاندهنده وجود یا عدم وجود یک کلمه خاص در متن میباشند. همچنین، یک ستون به عنوان برچسب (نویسنده متن) در نظر گرفته شده است.
هدف این است که مدلی ساخته شود که با دریافت اطلاعات مربوط به وجود یا عدم وجود کلمات در یک متن، قادر به پیشبینی نویسنده آن باشد.