Skip to content

Commit

Permalink
lang/de.lang: Replace infix substitution /en with ch/chen (6a215ef).
Browse files Browse the repository at this point in the history
Prevent overly aggressive identifications (e.g., "Fehlerfinden").
  • Loading branch information
blackwinter committed Feb 6, 2015
1 parent 30c9b2b commit 9ae852f
Show file tree
Hide file tree
Showing 16 changed files with 247 additions and 259 deletions.
2 changes: 2 additions & 0 deletions ChangeLog
Original file line number Diff line number Diff line change
Expand Up @@ -23,6 +23,8 @@
specified tags' contents.
* Lingo::Attendee subclasses warn when invalid or obsolete options or names
are used.
* Changed German infix substitution +/en+ to +ch/chen+ in order to prevent
overly aggressive identifications.
* Internal refactoring and API changes.

== 1.8.5 [2014-10-02]
Expand Down
2 changes: 1 addition & 1 deletion lang/de.lang
Original file line number Diff line number Diff line change
Expand Up @@ -79,7 +79,7 @@ language:
- [a, 'este ste ster sten stes ester estes esten e em en er ere eren erer eres es erem']
- [v, 'e/en en/en est/en et/en st/en t/en te/en ten/en eten/en ete/en etest/en s']
- [e, 's']
- [f, 's n e en es er ch/che /en']
- [f, 's n e en es er ch/che ch/chen']

inflect:
a: # adjectives
Expand Down
3 changes: 3 additions & 0 deletions test/ref/artikel.non
Original file line number Diff line number Diff line change
Expand Up @@ -19,6 +19,7 @@ ausnahmungslos
autindex
b
bd
bellotto
benkert
bernardo
beschreibt15
Expand Down Expand Up @@ -74,6 +75,7 @@ insb
kateogrien
knorz
könnnen
lebrecht
leonard
leonardus
lepsky
Expand Down Expand Up @@ -123,6 +125,7 @@ tel
tgn
the
vedutenmalerei
verwendenten
vgl
vinci
vincius
Expand Down
5 changes: 1 addition & 4 deletions test/ref/artikel.vec
Original file line number Diff line number Diff line change
Expand Up @@ -96,7 +96,6 @@ beitrag
bekannt
bekannte
bekennen
bellotto
bemühen
bemüht
benötigen
Expand Down Expand Up @@ -500,7 +499,6 @@ künstlerlexikon
künstlername
land
lassen
lebrecht
lediglich
legitim
leicht
Expand Down Expand Up @@ -838,7 +836,6 @@ verweisungsform
verweisungsstruktur
verwenden
verwendend
verwendente
verwendet
verwendung
verzicht
Expand Down Expand Up @@ -940,4 +937,4 @@ zweitausendeins
öl
überblick
überspitzen
überspitzt
überspitzt
5 changes: 1 addition & 4 deletions test/ref/artikel.vef
Original file line number Diff line number Diff line change
Expand Up @@ -180,7 +180,6 @@
0.00070 aufwand
0.00070 bedingung
0.00070 bekannt
0.00070 bellotto
0.00070 bereich
0.00070 bessern
0.00070 bevorzugen
Expand Down Expand Up @@ -213,7 +212,6 @@
0.00070 informationswissenschaft
0.00070 institut
0.00070 kommen
0.00070 lebrecht
0.00070 liefern
0.00070 liege
0.00070 liegen
Expand Down Expand Up @@ -889,7 +887,6 @@
0.00023 versuch
0.00023 versucht
0.00023 vertreten
0.00023 verwendente
0.00023 verzichtet
0.00023 veränderung
0.00023 vielzahl
Expand Down Expand Up @@ -940,4 +937,4 @@
0.00023 öl
0.00023 überblick
0.00023 überspitzen
0.00023 überspitzt
0.00023 überspitzt
3 changes: 0 additions & 3 deletions test/ref/artikel.ven
Original file line number Diff line number Diff line change
Expand Up @@ -180,7 +180,6 @@
3 aufwand
3 bedingung
3 bekannt
3 bellotto
3 bereich
3 bessern
3 bevorzugen
Expand Down Expand Up @@ -213,7 +212,6 @@
3 informationswissenschaft
3 institut
3 kommen
3 lebrecht
3 liefern
3 liege
3 liegen
Expand Down Expand Up @@ -889,7 +887,6 @@
1 versuch
1 versucht
1 vertreten
1 verwendente
1 verzichtet
1 veränderung
1 vielzahl
Expand Down
3 changes: 0 additions & 3 deletions test/ref/artikel.ver
Original file line number Diff line number Diff line change
Expand Up @@ -180,7 +180,6 @@
0.00070 aufwand
0.00070 bedingung
0.00070 bekannt
0.00070 bellotto
0.00070 bereich
0.00070 bessern
0.00070 bevorzugen
Expand Down Expand Up @@ -213,7 +212,6 @@
0.00070 informationswissenschaft
0.00070 institut
0.00070 kommen
0.00070 lebrecht
0.00070 liefern
0.00070 liege
0.00070 liegen
Expand Down Expand Up @@ -889,7 +887,6 @@
0.00023 versuch
0.00023 versucht
0.00023 vertreten
0.00023 verwendente
0.00023 verzichtet
0.00023 veränderung
0.00023 vielzahl
Expand Down
7 changes: 0 additions & 7 deletions test/ref/artikel.vet
Original file line number Diff line number Diff line change
Expand Up @@ -216,7 +216,6 @@ folgend@425:3019
eintrag@426:3029
finden@427:3037
eigentlich@433:3061
bellotto
venedig@441:3105
warschau@446:3128
wirkungsorte
Expand Down Expand Up @@ -537,7 +536,6 @@ schlagwort@1008:7057
vorzugsbenennung
aller@1013:7109
all@1013:7109
verwendente
theoretisch@1018:7140
denkbar@1019:7152
form@1021:7163
Expand Down Expand Up @@ -1416,8 +1414,6 @@ alternativ@2607:18384
namensform
einer@2610:18414
normierungsquelle
bellotto
bellotto
bereitstellung@2625:18506
substantiv@2627:18525
indexterm
Expand Down Expand Up @@ -2331,7 +2327,6 @@ künstlerlexikon
weit@4224:30170
information@4225:30178
thematik@4227:30196
lebrecht
heike@4231:30218
methode@4233:30225
problem@4235:30238
Expand Down Expand Up @@ -2423,7 +2418,6 @@ eben@4514:31815
denkbar@4515:31822
problematik@4522:31846
bilderschließung
lebrecht
methode@4528:31895
problem@4530:31908
bilderschließung
Expand Down Expand Up @@ -2580,7 +2574,6 @@ kunstgeschichtlich
bilderschließung
werden@4928:34540
können@4929:34547
lebrecht
methode@4935:34571
problem@4937:34584
bilderschließung
Expand Down
65 changes: 34 additions & 31 deletions test/ref/lir.non
Original file line number Diff line number Diff line change
Expand Up @@ -7,6 +7,7 @@
00017*dad|schlagwortgebung
00018*precis
00019*deskriptoren|din|t
00022*indexiermuster
00023*din
00024*bibliographic|british|library|office|on-line|precis|präkoordinierten|subject
00025*precis
Expand All @@ -15,7 +16,7 @@
00029*british|context|library|mehrsprachigen|precis|preserved|reörtert
00033*als|asb|sfb|ssd
00034*and|anderen|precis
00036*probabilistische|probabilistischen|vom
00036*nutztheoretischen|probabilistische|probabilistischen|vom
00037*a|allegro-c|and|as|available|established|keyword|of|the|with
00038*als|bibliodata|d-mark|erster|rswk|so|unspezifischen
00039*a|als|db|db-thesaurus|deskriptoren
Expand All @@ -26,7 +27,7 @@
00045*als|boek|buch-|ersten|het
00046*precis
00047*bzw|krtisch|so
00048*als
00048*als|indexierregeln
00049*facettierung|präkoordinierungsindexes
00050*als
00051*kwic-indexing|luhn
Expand Down Expand Up @@ -59,11 +60,11 @@
00093*als|edv|is|opac|opacs|rswk|vielfältigen
00096*oberwolfach|vom
00097*air|indexierungs-
00098*-praxis|als|bibliographic|boolescher|citation|coupling|erhaltenen|finanz-|juris|kozitationsanalyse|läßt|precision|recall|sci|science|vor|zitationsbezügen
00098*-praxis|als|bibliographic|boolescher|citation|coupling|erhaltenen|finanz-|juris|kozitationsanalyse|läßt|precision|recall|sci|science|vor|zitationsbezügen|zitierverhaltens
00100*s
00102*british|library|precis|u
00103*asb|sfb|ssd|swi|t
00105*koindexaten|opacs|orientierungslosigkeit|ranking|recall|relevance|softwareseitige
00105*endnutzer|koindexaten|opacs|orientierungslosigkeit|ranking|recall|relevance|relevanzrückmeldung|softwareseitige
00106*deutschsprachige|pcs
00107*indexing|wai
00115*als|condor
Expand Down Expand Up @@ -95,7 +96,7 @@
00148*a|academic|and|are|argued|back-of-the-book|be|between|branch|by|can|cognitive|comprehension|concept|consists|debeloped|differences|dijk|discussed|document|followed|for|indexed|indexing|is|it|kintsch|mind|of|process|processing|production|set|such|suggested|testing|that|the|to|van
00149*a|and|areas|automated|automatic|automatically|average|be|being|combination|documents|each|economic|effectiveness|energy|examines|for|from|growth|immediate|included|indexed|indexing|intellectual|it|of|per|presents|randomly|ranged|ranging|recall|references|results|search|seems|selected|should|sources|study|subject|that|the|there|therefore|to|topic|topics|ulb|used|were|while|with
00150*als
00151*world-wide-web
00151*surfbrett|world-wide-web
00153*a|and|between|bibliographic|by|citation|cocitation|commercial|difference|discusses|example|for|illustrates|implemented|linking|means|of|offer|on|presents|sci|science|so-called|st|the|time|within
00154*-ebenen|als|amphore|pc-arbeitsplätze|sequenz-|so|vor
00155*als|deutschsprachige|deutschsprachigen|faz|nzz|taz|trunkierungsmöglichkeiten
Expand All @@ -112,26 +113,27 @@
00170*-konzept|a|added|and|are|as|at|attempts|between|bring|can|clearinghouse|concentration|concept|consequences|cooperation|despite|dfg|discusses|for|from|german|groups|increasing|indexing|job|librarians|libraries|library|mechanisms|methods|networked|of|on|other|outlines|perspective|realm|relatively|research|search|several|similar|society|sources|sourvces|special|specific|structuring|subject|such|technical|the|to|together|unstructured|use|value|work
00171*ersten|mag|zukunftsmärkte
00172*web
00173*-|hillarys|melbournes
00173*-|hillarys|melbournes|webpages
00174*bibliometrics|bibliometrische|bibliometrischen|cd-edition|citation|rückkopplung|science|social|visual|vor
00175*alphabetic|and|comparison|coordinate|experimental|subject
00176*als|bmbf|fiz|förderkonzept|insti|kmu|medoc|vom|vor
00177*audio-|informations-|iud-|ocr|presse-|radio-|so|workgrouping
00177*audio-|fernsehberichten|informations-|iud-|ocr|presse-|radio-|so|workgrouping
00178*accessible|and|are|at|before|catalogue|century|collection|countries|described|digitization|for|from|german-speaking|graphic|incipit|incorporating|incunabula|known|libraries|makes|more|of|old|printed|project|projects|representation|short|th|than|the|title|university|up|vd17|works
00179*adreßsammlungen
00180*a|analyzing|and|be|by|can|canal|catalogue|catalogues|compared|compounds|consequently|field|found|german|if|library|linguistic|linguistically|ls|mehrsprachigen|of|presents|psychology|question|questions|reduces|required|results|search|searching|simplifies|so|that|the|their|them|they|title|titles|to|translating|variants|with
00181*so
00181*so|zitierpraxis
00182*chilias|eu-projekt|medien-|www
00183*kulturfahrplan
00184*excalibur|fulcrum|inmagic|pls|verity|zylab
00185*automatichen|clustering
00186*air|als|wai
00188*hyperkatalog|opac|vom
00191*als|begriffs-|clusteringverfahrens|prioritätsklassen|so
00192*als|stich-|vermittels
00193*dk
00193*abfragbaren|dk
00194*precis
00195*precis
00197*dokumentare|relevenaz|vor
00197*dokumentare|relevenaz|rückbesinnung|vor
00198*kascade
00199*and|bzw|freewaissf|german|girt|indexierungs-|indexing|pretest
00200*-
Expand All @@ -145,8 +147,8 @@
00209*als|indexat
00210*digitalisierter|indexierungs-|mining|textuelle
00211*girt|indexierungs-|iz
00212*bzw|probabilistische|probabilistischen|subkollektionen|subkollektionsspezifischen|übredies
00213*besonders|deskriptoren|deskriptorensystem|h|hüther|mehreren|so|vor
00212*bzw|probabilistische|probabilistischen|skalierbar|subkollektionen|subkollektionsspezifischen|übredies
00213*besonders|deskriptoren|deskriptorensystem|h|hüther|mehreren|schätzverfahren|so|vor
00217*kascade|universitäts-
00218*opac
00219*rswk|universitäts-
Expand All @@ -168,7 +170,7 @@
00237*anderen|such-|web|wide|world|yahoo
00238*web|wide|world
00239*ab|als|dokumentars|vademecum|vor-
00240*a|preus|preuss
00240*a|preus|preuss|zitierkette
00242*universitäts-|vom
00244*ins
00245*gbv|tib
Expand Down Expand Up @@ -197,7 +199,7 @@
00272*a|and|are|bismas|cataloguing|categories|category|cologne|construct|content|described|description|descriptive|disciplines|document|does|fhbd|for|free|fringe|further|is|library|mainly|now|on|permit|possibilities|project|provided|ran|scheme|school|so|the|to|using|whole
00273*-|a|achieved|and|arrival|as|ask|be|boolean|building|catalogues|cataloguing|categories|component|consequences|could|descriptive|essential|for|fur|indexing|introduction|inversion|is|librarians|might|number|of|or|prepared|public|result|role|rswk|rules|since|subject|syntactic|the|vom|whether|with
00274*a|address|advantages|and|as|assessment|automatic|card|catalogues|concludes|content|cr-rom|development|disadvantages|document|effective|examines|existing|indexing|library|make|methods|more|needs|of|opacs|postcoordinated|precoordinated|presents|regard|relevance|representation|storage|such|that|the|to|with
00275*-aug|a|and|avoiding|between|book|college|cologne|demands|from|fur|helpful|high|ii|indexing|is|keyword|librarianship|mechanised|mechanized|methods|milos|more|no|nov|numbers|of|or|proved|published|quality|ran|reducing|result|searches|semantic|standardized|successful|than|the|title|titles|unsatisfied|used|vocabulary
00275*-aug|a|and|avoiding|between|book|college|cologne|demands|from|fur|helpful|high|ii|indexing|is|keyword|librarianship|mechanised|mechanized|methods|milos|more|no|nov|numbers|of|or|proved|prüfstand|published|quality|ran|reducing|result|searches|semantic|standardized|successful|than|the|title|titles|unsatisfied|used|vocabulary
00276*ab|als|and|engines|informations-|kornmunikationssystem|math-net|search|web
00277*als|as|d|deskriptoren|deskriptorterm|deskriptorterme|indexierungssparche|natürlichsprachige|nominalsyntagma|nominalsyntagmas|nominalsyntagmen|nominalsyntagna|nonimalsyntagma|nutzbarmachung|referentielle|referentiellen|sydo-lyon
00278*-|heimanwender
Expand All @@ -207,24 +209,25 @@
00285*citation|science|social|szientometrische|szientometrischen
00286*-|ag|erste|etc|gaukelt|km|kobv|kvk|mueller|udenscheid|vor
00287*als|audesc|autindex|ca|deskribierungsmodul|deskriptoren|iai|label|mehrsprachigen|newscan
00288*-|classification|egal|ipc|knowledge|mehrsprachigkeit|so
00288*-|classification|egal|ipc|knowledge|mehrsprachigkeit|rückgrat|so
00289*-|-statistik|ab|alta|altavista|google|northern|the|vista|web|wide|world
00290*-|-mal|ab|alltheweb|allthewebs|als|altavista|anderen|andrei|audiodateien|betrieben|bright|brin|broder|compac|components|connected|deutschsprachiger|dritter|economy|enthaltenen|giant|gliedert|google|googol|handverlesene|ibm|info-|larry|looksmart|masseninedium|mehrsprachigen|mono-|new|rechercheure|scc|scooter|sergej|so|speichert|strongly|tendrils|university|us-softwareunternehmen|vom|vorstrukturierte|web|werbepreise|wide|world|www|yahoo|zweite
00290*-|-mal|ab|alltheweb|allthewebs|als|altavista|anderen|andrei|audiodateien|betrieben|bright|brin|broder|compac|components|connected|deutschsprachiger|dritter|economy|endpunkte|enthaltenen|giant|gliedert|google|googol|handverlesene|ibm|info-|larry|looksmart|masseninedium|mehrsprachigen|mono-|new|rechercheure|scc|scooter|sergej|so|speichert|strongly|surfentscheidungen|tendrils|university|us-softwareunternehmen|vom|vorstrukturierte|web|webadressen|webangebote|webkataloge|webseite|webseiten|werbepreise|wide|world|www|yahoo|zweite
00291*als|anderen|betrieben|dfg|erfassungssystern|erstes|hida|nachlässe|so|stäcker|textverarbeitung7|vom|vor
00292*als|informations-|workflow
00293*-|als|anderen|grundzügen|irs|koordinativer|nikolaj|phonetische|phonologische|precision|recall|s|trubetzkoy|vor
00294*als|angloamerikanischen|beschrieb|faq|hochwertigen|kornmunikationsmedium|leicester|librarians|mangelt|of|pc|per|project|the|to|ub|university|vom
00294*als|angloamerikanischen|beschrieb|faq|hochwertigen|kornmunikationsmedium|leicester|librarians|mangelt|of|pc|per|project|rückfragen|rückgang|the|to|ub|university|vom|webseiten
00295*-|als|engines|homonym-|known|search|searches|synonym-|web|wide|world
00296*-|bzw|egal|how|independents|informetrischen|know|minimalismus|natürlichsprachiger|professional|vom|web|wide|world
00297*als|factor|impact|publikations-|vor|working
00297*als|endgültige|factor|impact|publikations-|vor|working|zählbasis
00298*anderen|aspectix|bzw|fachgebiets-|precision|recall|textcorpus|unähnlich|www
00299*recherchierbar
00300*cases|donnerte|erste|iec|iso|maps|multiple|topic|use|xtm
00301*-|a|anderen|b|klassen|ordnungs-|u|unüberschaubare|z
00302*autonomy|booleschem|doccat|ersteres|g|gruner|ibm|inc|j|probabilistisches|so|vom
00303*als|annotieren|collate|digitalisiertem|dokumentmanagement-|kollaborativen|komfortable|metadaten|vom|wissens-|www
00305*consult|content|eutelis|ic|regulatorischen|smartcardanwendungen|telecom|telekommunikation|telekommunikations-|telekommunikationsdiensten
00306*als|thernatik|urnstandes|vor
00308*-|-außer|anderen|bzw|citation|factor|for|immediacy|impact|informetrische|informetrischen|jcr|periodikabestände|scientific|so|soziogramme|vor
00301*-|a|anderen|b|klassen|messdaten|ordnungs-|u|unüberschaubare|z
00302*autonomy|booleschem|doccat|einsetzbar|ersteres|g|gruner|ibm|inc|j|probabilistisches|so|vom
00303*als|annotieren|collate|digitalisiertem|dokumentmanagement-|kollaborativen|komfortable|metadaten|vom|webbasiertes|wissens-|www
00305*consult|content|endgeräten|eutelis|ic|regulatorischen|smartcardanwendungen|telecom|telekommunikation|telekommunikations-|telekommunikationsdiensten
00306*als|erschließbar|thernatik|urnstandes|vor
00308*-|-außer|anderen|bzw|citation|factor|for|immediacy|impact|informetrische|informetrischen|jcr|kennwerte|kennzahlen|periodikabestände|scientific|so|soziogramme|umgehbares|vor
00309*dfg|elib|engines|mwk|niedersächsischen|search|textuellen|volltexdatenbanken
00310*-|ab|als|aufgaben-|deutschsprachigen|erfahrene|erfahrener|ko-selektion|logfiles|per|performance-|web|wide|world
00311*alembert|cacouacs|d|diderot|encyclopédie
Expand All @@ -233,18 +236,18 @@
00314*based|content
00315*globalisierung|proceedings
00316*fulcrum-evaluierung
00317*autonomy|booleschem|doccat|ersteres|g|gruner|ibm|inc|j|probabilistisches|so|vom
00317*autonomy|booleschem|doccat|einsetzbar|ersteres|g|gruner|ibm|inc|j|probabilistisches|so|vom
00318*ins|web
00319*anderem|besonders|daten-|document|dtd|generalized|html|hypertext|language|markup|metasprache|objektorientiertheit|sgml|web|wide|world|www
00320*-effizienz|als|deskriptorenfeldern|eher|so|vor
00321*biosphäre|demarkationen|gnn|polanyi|so
00319*anderem|besonders|daten-|document|dtd|generalized|html|hypertext|language|markup|metasprache|objektorientiertheit|programmiersprache|sgml|web|wide|world|www
00320*-effizienz|als|bedienbare|deskriptorenfeldern|eher|so|vor
00321*biosphäre|demarkationen|fixierbare|gnn|polanyi|so
00322*englischsprachiger|foris|solis
00323*forschungs-|vor
00324*-|ab|alembert|als|d|denis|diderot|encyclopedie|encyclopédie|enzyklopädistik|iso|jorio|le|maps|rond|topic|um-|versprach|vom|weiterzuentwickeln|zotter
00325*als|citation|for|nahmen|phanomen|science|scientific|social|ssci|unsubstanzieller
00326*-|-technik|anderen|metadaten|opacs|vom|webopacs
00325*als|citation|for|nahmen|phanomen|science|scientific|social|ssci|umfragergebnis|unsubstanzieller
00326*-|-technik|anderen|beschreibbar|metadaten|opacs|vom|webopacs
00327*erl-5|webspirs-5
00328*and|bibliographic|bibliography|cataloguing|classification|conference|control|ifla|indexing|iv|on|section
00329*multiple|multipler
00330*-|a|ab|alltheweb|als|altavista|alto|anderen|ans|art|atomz|auskunftei|auskunfteien|beiträgen|berners-lee|besonders|brin|britannica|britney|cern|chtml|compact|deja|domane|e-mails|encyclopedia|ersten|exotika|factory|fanden|fido-|flash|freefind|fünfte|gb|gluonenkraft|google|googles|hotbot|html|hypertext|imode|index-|infoseek|inktomi|ins|its|julius|katalogisierer|kepnt|krabbelprogrammen|krabbler|krabbler-pcs|krabblern|könnte-|la|larry|legebatterie|look|luis|macromedia|mag|manche|mantua|meal|mehreren|meta-crawler|monier|mönatlich|netzausforschung|northern|palo|petabyte|placement|plexiglas|quelltext|rubriziert|s|sailer|search|sergey|so|spears|speichert|stöbert|t-online|terabyte|threads|tim|trenker|uberblick|unauffindbar|url-adreßdatenbank|usancen|verbitten|vom|vor|wapinhalte|web|webbrain|webtop|wide|world|xipolis|yahoo|zollund|zuläßt|zweiter|zügen|à|übersuchmaschinen
00330*-|a|ab|alltheweb|als|altavista|alto|anderen|ans|art|atomz|auskunftei|auskunfteien|beiträgen|berners-lee|besonders|brin|britannica|britney|cern|chtml|compact|deja|domane|e-mails|encyclopedia|ersten|exotika|factory|fanden|fido-|flash|freefind|fünfte|gb|gluonenkraft|google|googles|hotbot|html|hypertext|imode|index-|infoseek|inktomi|ins|its|julius|katalogisierer|kepnt|kopierbar|krabbelprogrammen|krabbler|krabbler-pcs|krabblern|könnte-|la|larry|legebatterie|look|luis|macromedia|mag|manche|mantua|meal|mehreren|meta-crawler|monier|mönatlich|netzausforschung|northern|palo|petabyte|placement|plexiglas|quelltext|rubriziert|s|sailer|search|sergey|so|spears|speichert|stöbert|t-online|terabyte|threads|tim|trenker|uberblick|unauffindbar|url-adreßdatenbank|usancen|verbitten|vom|vor|wapinhalte|web|webbrain|webdesigner|webformate|webseiten|webtop|wide|world|xipolis|yahoo|zollund|zuläßt|zweiter|zügen|à
00331*-|idx|stich-
Loading

0 comments on commit 9ae852f

Please sign in to comment.