Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Two Suggestions #15

Open
tspier opened this issue Nov 29, 2021 · 1 comment
Open

Two Suggestions #15

tspier opened this issue Nov 29, 2021 · 1 comment

Comments

@tspier
Copy link

tspier commented Nov 29, 2021

Great work so far! Just two suggestions:

  1. The language is more commonly called Slovene, not Slovenian.

  2. NLTK has stopwords listed for four languages not already included here: Azerbaijani (165), Kazakh (324), Nepali (255), and Tajik (163). I've listed the returned values below.

['a', 'ad', 'altı', 'altmış', 'amma', 'arasında', 'artıq', 'ay', 'az', 'bax', 'belə', 'bəli', 'bəlkə', 'beş', 'bəy', 'bəzən', 'bəzi', 'bilər', 'bir', 'biraz', 'biri', 'birşey', 'biz', 'bizim', 'bizlər', 'bu', 'buna', 'bundan', 'bunların', 'bunu', 'bunun', 'buradan', 'bütün', 'ci', 'cı', 'çox', 'cu', 'cü', 'çünki', 'da', 'daha', 'də', 'dedi', 'dək', 'dən', 'dəqiqə', 'deyil', 'dir', 'doqquz', 'doqsan', 'dörd', 'düz', 'ə', 'edən', 'edir', 'əgər', 'əlbəttə', 'elə', 'əlli', 'ən', 'əslində', 'et', 'etdi', 'etmə', 'etmək', 'faiz', 'gilə', 'görə', 'ha', 'haqqında', 'harada', 'hə', 'heç', 'həm', 'həmin', 'həmişə', 'hər', 'ı', 'idi', 'iki', 'il', 'ildə', 'ilə', 'ilk', 'in', 'indi', 'isə', 'istifadə', 'iyirmi', 'ki', 'kim', 'kimə', 'kimi', 'lakin', 'lap', 'məhz', 'mən', 'mənə', 'mirşey', 'nə', 'nəhayət', 'niyə', 'o', 'obirisi', 'of', 'olan', 'olar', 'olaraq', 'oldu', 'olduğu', 'olmadı', 'olmaz', 'olmuşdur', 'olsun', 'olur', 'on', 'ona', 'ondan', 'onlar', 'onlardan', 'onların ', 'onsuzda', 'onu', 'onun', 'oradan', 'otuz', 'öz', 'özü', 'qarşı', 'qədər', 'qırx', 'saat', 'sadəcə', 'saniyə', 'səhv', 'səkkiz', 'səksən', 'sən', 'sənə', 'sənin', 'siz', 'sizin', 'sizlər', 'sonra', 'təəssüf', 'ü', 'üç', 'üçün', 'var', 'və', 'xan', 'xanım', 'xeyr', 'ya', 'yalnız', 'yaxşı', 'yeddi', 'yenə', 'yəni', 'yetmiş', 'yox', 'yoxdur', 'yoxsa', 'yüz', 'zaman']

['ах', 'ох', 'эх', 'ай', 'эй', 'ой', 'тағы', 'тағыда', 'әрине', 'жоқ', 'сондай', 'осындай', 'осылай', 'солай', 'мұндай', 'бұндай', 'мен', 'сен', 'ол', 'біз', 'біздер', 'олар', 'сіз', 'сіздер', 'маған', 'оған', 'саған', 'біздің', 'сіздің', 'оның', 'бізге', 'сізге', 'оларға', 'біздерге', 'сіздерге', 'оларға', 'менімен', 'сенімен', 'онымен', 'бізбен', 'сізбен', 'олармен', 'біздермен', 'сіздермен', 'менің', 'сенің', 'біздің', 'сіздің', 'оның', 'біздердің', 'сіздердің', 'олардың', 'маған', 'саған', 'оған', 'менен', 'сенен', 'одан', 'бізден', 'сізден', 'олардан', 'біздерден', 'сіздерден', 'олардан', 'айтпақшы', 'сонымен', 'сондықтан', 'бұл', 'осы', 'сол', 'анау', 'мынау', 'сонау', 'осынау', 'ана', 'мына', 'сона', 'әні', 'міне', 'өй', 'үйт', 'бүйт', 'біреу', 'кейбіреу', 'кейбір', 'қайсыбір', 'әрбір', 'бірнеше', 'бірдеме', 'бірнеше', 'әркім', 'әрне', 'әрқайсы', 'әрқалай', 'әлдекім', 'әлдене', 'әлдеқайдан', 'әлденеше', 'әлдеқалай', 'әлдеқашан', 'алдақашан', 'еш', 'ешкім', 'ешбір', 'ештеме', 'дәнеңе', 'ешқашан', 'ешқандай', 'ешқайсы', 'емес', 'бәрі', 'барлық', 'барша', 'бар', 'күллі', 'бүкіл', 'түгел', 'өз', 'өзім', 'өзің', 'өзінің', 'өзіме', 'өзіне', 'өзімнің', 'өзі', 'өзге', 'менде', 'сенде', 'онда', 'менен', 'сенен\tонан', 'одан', 'ау', 'па', 'ей', 'әй', 'е', 'уа', 'уау', 'уай', 'я', 'пай', 'ә', 'о', 'оһо', 'ой', 'ие', 'аһа', 'ау', 'беу', 'мәссаған', 'бәрекелді', 'әттегенай', 'жаракімалла', 'масқарай', 'астапыралла', 'япырмай', 'ойпырмай', 'кәне', 'кәнеки', 'ал', 'әйда', 'кәні', 'міне', 'әні', 'сорап', 'қош-қош', 'пфша', 'пішә', 'құрау-құрау', 'шәйт', 'шек', 'моһ', 'тәк', 'құрау', 'құр', 'кә', 'кәһ', 'күшім', 'күшім', 'мышы', 'пырс', 'әукім', 'алақай', 'паһ-паһ', 'бәрекелді', 'ура', 'әттең', 'әттеген-ай', 'қап', 'түге', 'пішту', 'шіркін', 'алатау', 'пай-пай', 'үшін', 'сайын', 'сияқты', 'туралы', 'арқылы', 'бойы', 'бойымен', 'шамалы', 'шақты', 'қаралы', 'ғұрлы', 'ғұрлым', 'шейін', 'дейін', 'қарай', 'таман', 'салым', 'тарта', 'жуық', 'таяу', 'гөрі', 'бері', 'кейін', 'соң', 'бұрын', 'бетер', 'қатар', 'бірге', 'қоса', 'арс', 'гүрс', 'дүрс', 'қорс', 'тарс', 'тырс', 'ырс', 'барқ', 'борт', 'күрт', 'кірт', 'морт', 'сарт', 'шырт', 'дүңк', 'күңк', 'қыңқ', 'мыңқ', 'маңқ', 'саңқ', 'шаңқ', 'шіңк', 'сыңқ', 'таңқ', 'тыңқ', 'ыңқ', 'болп', 'былп', 'жалп', 'желп', 'қолп', 'ірк', 'ырқ', 'сарт-сұрт', 'тарс-тұрс', 'арс-ұрс', 'жалт-жалт', 'жалт-жұлт', 'қалт-қалт', 'қалт-құлт', 'қаңқ-қаңқ', 'қаңқ-құңқ', 'шаңқ-шаңқ', 'шаңқ-шұңқ', 'арбаң-арбаң', 'бүгжең-бүгжең', 'арсалаң-арсалаң', 'ербелең-ербелең', 'батыр-бұтыр', 'далаң-далаң', 'тарбаң-тарбаң', 'қызараң-қызараң', 'қаңғыр-күңгір', 'қайқаң-құйқаң', 'митың-митың', 'салаң-сұлаң', 'ыржың-тыржың', 'бірақ', 'алайда', 'дегенмен', 'әйтпесе', 'әйткенмен', 'себебі', 'өйткені', 'сондықтан', 'үшін', 'сайын', 'сияқты', 'туралы', 'арқылы', 'бойы', 'бойымен', 'шамалы', 'шақты', 'қаралы', 'ғұрлы', 'ғұрлым', 'гөрі', 'бері', 'кейін', 'соң', 'бұрын', 'бетер', 'қатар', 'бірге', 'қоса', 'шейін', 'дейін', 'қарай', 'таман', 'салым', 'тарта', 'жуық', 'таяу', 'арнайы', 'осындай', 'ғана', 'қана', 'тек', 'әншейін']

['छ', 'र', 'पनि', 'छन्', 'लागि', 'भएको', 'गरेको', 'भने', 'गर्न', 'गर्ने', 'हो', 'तथा', 'यो', 'रहेको', 'उनले', 'थियो', 'हुने', 'गरेका', 'थिए', 'गर्दै', 'तर', 'नै', 'को', 'मा', 'हुन्', 'भन्ने', 'हुन', 'गरी', 'त', 'हुन्छ', 'अब', 'के', 'रहेका', 'गरेर', 'छैन', 'दिए', 'भए', 'यस', 'ले', 'गर्नु', 'औं', 'सो', 'त्यो', 'कि', 'जुन', 'यी', 'का', 'गरि', 'ती', 'न', 'छु', 'छौं', 'लाई', 'नि', 'उप', 'अक्सर', 'आदि', 'कसरी', 'क्रमशः', 'चाले', 'अगाडी', 'अझै', 'अनुसार', 'अन्तर्गत', 'अन्य', 'अन्यत्र', 'अन्यथा', 'अरु', 'अरुलाई', 'अर्को', 'अर्थात', 'अर्थात्', 'अलग', 'आए', 'आजको', 'ओठ', 'आत्म', 'आफू', 'आफूलाई', 'आफ्नै', 'आफ्नो', 'आयो', 'उदाहरण', 'उनको', 'उहालाई', 'एउटै', 'एक', 'एकदम', 'कतै', 'कम से कम', 'कसै', 'कसैले', 'कहाँबाट', 'कहिलेकाहीं', 'का', 'किन', 'किनभने', 'कुनै', 'कुरा', 'कृपया', 'केही', 'कोही', 'गए', 'गरौं', 'गर्छ', 'गर्छु', 'गर्नुपर्छ', 'गयौ', 'गैर', 'चार', 'चाहनुहुन्छ', 'चाहन्छु', 'चाहिए', 'छू', 'जताततै', 'जब', 'जबकि', 'जसको', 'जसबाट', 'जसमा', 'जसलाई', 'जसले', 'जस्तै', 'जस्तो', 'जस्तोसुकै', 'जहाँ', 'जान', 'जाहिर', 'जे', 'जो', 'ठीक', 'तत्काल', 'तदनुसार', 'तपाईको', 'तपाई', 'पर्याप्त', 'पहिले', 'पहिलो', 'पहिल्यै', 'पाँच', 'पाँचौं', 'तल', 'तापनी', 'तिनी', 'तिनीहरू', 'तिनीहरुको', 'तिनिहरुलाई', 'तिमी', 'तिर', 'तीन', 'तुरुन्तै', 'तेस्रो', 'तेस्कारण', 'पूर्व', 'प्रति', 'प्रतेक', 'प्लस', 'फेरी', 'बने', 'त्सपछि', 'त्सैले', 'त्यहाँ', 'थिएन', 'दिनुभएको', 'दिनुहुन्छ', 'दुई', 'देखि', 'बरु', 'बारे', 'बाहिर', 'देखिन्छ', 'देखियो', 'देखे', 'देखेको', 'देखेर', 'दोस्रो', 'धेरै', 'नजिकै', 'नत्र', 'नयाँ', 'निम्ति', 'बाहेक', 'बीच', 'बीचमा', 'भन', 'निम्न', 'निम्नानुसार', 'निर्दिष्ट', 'नौ', 'पक्का', 'पक्कै', 'पछि', 'पछिल्लो', 'पटक', 'पर्छ', 'पर्थ्यो', 'भन्छन्', 'भन्', 'भन्छु', 'भन्दा', 'भन्नुभयो', 'भर', 'भित्र', 'भित्री', 'म', 'मलाई', 'मात्र', 'माथि', 'मुख्य', 'मेरो', 'यति', 'यथोचित', 'यदि', 'यद्यपि', 'यसको', 'यसपछि', 'यसबाहेक', 'यसरी', 'यसो', 'यस्तो', 'यहाँ', 'यहाँसम्म', 'या', 'रही', 'राखे', 'राख्छ', 'राम्रो', 'रूप', 'लगभग', 'वरीपरी', 'वास्तवमा', 'बिरुद्ध', 'बिशेष', 'सायद', 'शायद', 'संग', 'संगै', 'सक्छ', 'सट्टा', 'सधै', 'सबै', 'सबैलाई', 'समय', 'सम्भव', 'सम्म', 'सही', 'साँच्चै', 'सात', 'साथ', 'साथै', 'सारा', 'सोही', 'स्पष्ट', 'हरे', 'हरेक']

['аз', 'дар', 'ба', 'бо', 'барои', 'бе', 'то', 'ҷуз', 'пеши', 'назди', 'рӯйи', 'болои ', 'паси', 'ғайри', 'ҳамон', 'ҳамоно', 'инҷониб', 'замон', 'замоно', 'эътиборан', 'пеш', 'қабл', 'дида', 'сар карда', 'агар ', 'агар ки', 'валекин ', 'ки', 'лекин', 'аммо', 'вале', 'балки', 'ва', 'ҳарчанд', 'чунки', 'зеро', 'зеро ки', 'вақте ки', 'то вақте ки', 'барои он ки', 'бо нияти он ки', 'лекин ва ҳол он ки', 'ё', 'ё ин ки ', 'бе он ки ', 'дар ҳолате ки', 'то даме ки ', 'баъд аз он ки', 'даме ки', 'ба тразе ки ', 'аз баҳри он ки', 'гар ', 'ар', 'ба шарте', 'азбаски ', 'модоме ки', 'агар чи', 'гарчанде ки ', 'бо вуҷуди он ки', 'гӯё', 'аз-баски ', 'чун-ки', 'агар-чанд', 'агар-чи ', 'гар-чи', 'то ки', 'чунон ки', 'то даме ки', 'ҳар қадар ки', 'магар ', 'оё', 'наход', 'ҳатто ', 'ҳам ', 'бале ', 'оре ', 'хуб ', 'хуш', 'хайр', 'не', 'на', 'мана', 'э', 'фақат', 'танҳо', 'кошки ', 'мабодо', 'ҳтимол', 'ана ҳамин', 'наход ки', 'ҳатто ки', 'аз афташ', 'майлаш куя', 'ана', 'ҳа', 'канӣ', 'гӯё ки', 'ҳо ана', 'на ин ки', 'ваҳ', 'ҳой', 'и', 'а', 'о', 'эҳ', 'ҳе', 'ҳу', 'аҳа', 'оҳе', 'уҳа', 'ҳм', 'нм', 'оббо', 'ӯббо', 'ҳой-ҳой ', 'вой-вой', 'ту-ту', 'ҳмм', 'эҳа', 'тавба', 'ӯҳӯ', 'аҷабо', 'ало', 'аё', 'ой', 'ӯим ', 'ором', 'хом?ш', 'ҳай-ҳай ', 'бай-бай', 'аз ', 'он', 'баъд', 'азбаски', 'ӯ', 'ҳангоми', 'чӣ', 'кадом', 'ин', 'ҷо', 'ҳам', 'ё ки', 'бояд', 'аст', 'чанд', 'ҳар', 'бар', 'чаро ки', 'агар', 'то кӣ', 'бинобар', 'бинобар ин', 'ҳаргиз', 'асло', 'нахот', 'нахот ки', 'кошкӣ', 'шояд', 'шояд ки', 'охир', 'аз рӯи', 'аз рӯйи ', 'рӯ']

@tspier
Copy link
Author

tspier commented Nov 29, 2021

And here's Macedonian (172):

['беше', 'еден', 'едно', 'јас', 'рече', 'сите', 'сум', 'ние', 'сме', 'овде', 'исто', 'така', 'на', 'и', 'во', 'се', 'го', 'не', 'да', 'е', 'што', 'од', 'со', 'за', 'или', 'тоа', 'ја', 'по', 'тој', 'но', 'а', 'ги', 'до', 'таа', 'му', 'кои', 'па', 'нив', 'ни', 'ќе', 'кој', 'итн', 'бил', 'кај', 'ова', 'врз', 'над', 'тие', 'a', 'две', 'би', 'она', 'неа', 'си', 'кое', 'ако', 'два', 'има', 'в', 'како', 'само', 'дека', 'една', 'туку', 'кога', 'сега', 'ми', 'потоа', 'низ', 'ти', 'кон', 'додека', 'веќе', 'нешто', 'него', 'уште', 'таму', 'ли', 'под', 'беа', 'ме', 'некој', 'ништо', 'тука', 'пред', 'им', 'каде', 'повторно', 'ниту', 'биде', 'толку', 'никогаш', 'мене', 'дали', 'тогаш', 'своите', 'сето', 'без', 'нема', 'околу', 'многу', 'полека', 'секогаш', 'зошто', 'те', 'добро', 'можеби', 'колку', 'можеше', 'нивните', 'преку', 'миг', 'знам', 'малку', 'вратата', 'ох', 'навистина', 'оваа', 'покрај', 'повеќе', 'овој', 'сеуште', 'имаше', 'својата', 'неговите', 'неговата', 'друго', 'зашто', 'немаше', 'воопшто', 'понекогаш', 'ах', 'зад', 'еднаш', 'својот', 'дури', 'себе', 'ви', 'токму', 'зарем', 'сте', 'било', 'сосема', 'секој', 'неговото', 'друг', 'мошне', 'ајде', 'можел', 'може', 'која', 'при', 'пак', 'сè', 'други', 'треба', 'ама', 'после', 'некоја', 'нас', 'бе', 'никој', 'одма', 'сѐ', 'ај', 'нѐ', 'неколку', 'вие', 'оние', 'мора', 'оди', 'еј']

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant