Skip to content

Commit

Permalink
Adds ambiguous german city names to dictionary
Browse files Browse the repository at this point in the history
  • Loading branch information
luflow committed Aug 10, 2024
1 parent 251b1e8 commit f27587b
Show file tree
Hide file tree
Showing 2 changed files with 36 additions and 5 deletions.
33 changes: 33 additions & 0 deletions charabia/dictionaries/txt/german/dictionary-de.txt
Original file line number Diff line number Diff line change
Expand Up @@ -1534,6 +1534,7 @@ aug
augapfel
augen
augmentation
augsburg
august
augustiner
auktion
Expand Down Expand Up @@ -2393,6 +2394,7 @@ bereitwilligkeits
berg
berge
bergen
bergisch
bergler
bergmanns
bergung
Expand Down Expand Up @@ -2921,6 +2923,7 @@ braue
brauer
brauerei
braun
braunschweig
brause
braut
bravourstück
Expand Down Expand Up @@ -3284,6 +3287,7 @@ darlehens
darlehn
darlehns
darm
darmstadt
darstellen
darsteller
darstellung
Expand Down Expand Up @@ -4875,6 +4879,7 @@ essens
essenz
esser
essig
esslingen
etablieren
etablissement
etage
Expand Down Expand Up @@ -5406,6 +5411,8 @@ frechheit
fregatte
frei
freiberufler
freiberg
freiburg
freigabe
freigebigkeit
freigebigkeits
Expand Down Expand Up @@ -5831,6 +5838,7 @@ gelenk
gelenkigkeit
gelenkigkeits
gelichter
gelsenkirchen
gelten
geltendmachen
geltung
Expand Down Expand Up @@ -6416,6 +6424,7 @@ gönnerschaft
gönnertum
götter
göttin
göttingen
götze
götzen
gültigkeit
Expand All @@ -6424,6 +6433,7 @@ günstling
gürtel
güte
güter
gütersloh
haar
haaresbreite
hab
Expand Down Expand Up @@ -6565,6 +6575,7 @@ hehler
hehlerei
heide
heidelbeere
heidelberg
heidenangst
heidenspaß
heidentum
Expand All @@ -6573,6 +6584,7 @@ heil
heiland
heilbarkeit
heilbarkeits
heilbronn
heilen
heiler
heiligen
Expand Down Expand Up @@ -6825,6 +6837,9 @@ humorist
humus
hund
hunde
hundert
hunderte
hunderter
hundertschaft
hunger
hunne
Expand Down Expand Up @@ -7376,6 +7391,7 @@ kahlschlag
kahn
kai
kaiser
kaiserslautern
kajak
kajüte
kakadu
Expand Down Expand Up @@ -8444,6 +8460,7 @@ land
lande
landes
landschafts
landshut
landtags
landung
landungs
Expand Down Expand Up @@ -8829,6 +8846,7 @@ mafiosi
mafioso
magazin
magd
magdeburg
magen
magenta
magie
Expand Down Expand Up @@ -8898,6 +8916,7 @@ manko
mann
mannequin
mannesmut
mannheim
mannigfaltigkeit
mannigfaltigkeits
mannsbild
Expand Down Expand Up @@ -9435,6 +9454,7 @@ möglichkeit
möglichkeits
möhre
mönch
mönchengladbach
mönchstum
mörder
mörser
Expand Down Expand Up @@ -9640,6 +9660,7 @@ netz
neu
neujahrs
neuling
neumünster
neun
neuntklässler
neuordnen
Expand Down Expand Up @@ -9713,6 +9734,7 @@ nominieren
nonne
nord
norden
norderstedt
norm
normal
normalität
Expand Down Expand Up @@ -9789,6 +9811,7 @@ obelisk
ober
oberflächlichkeit
oberflächlichkeits
oberhausen
obfrau
obhut
objekt
Expand Down Expand Up @@ -10863,6 +10886,7 @@ ratgeber
rathaus
ratifikation
ratifizieren
ratingen
ration
rationalisieren
rationalisierung
Expand Down Expand Up @@ -10925,6 +10949,7 @@ rechtlichkeits
rechts
rechtschreib
reck
recklinghausen
recycling
redakteur
redaktion
Expand Down Expand Up @@ -10972,6 +10997,7 @@ regelungs
regen
regeneration
regenerieren
regensburg
regent
regentschaft
regie
Expand Down Expand Up @@ -11258,6 +11284,7 @@ rosen
rosette
rosine
rost
rostock
rot
rotation
rotations
Expand Down Expand Up @@ -11372,6 +11399,7 @@ salto
salut
salve
salz
salzgitter
samariter
samba
same
Expand Down Expand Up @@ -12227,6 +12255,7 @@ solidarisieren
solidarität
solidaritäts
solidität
solingen
solist
solitär
solo
Expand Down Expand Up @@ -12989,6 +13018,7 @@ tauglichkeits
taumel
taupunkt
tausch
tausend
tausende
tausender
tausendsasa
Expand Down Expand Up @@ -14509,6 +14539,7 @@ vier
vierbeiner
viereck
vierlinge
viersen
viertel
viertklässler
vierziger
Expand Down Expand Up @@ -14949,6 +14980,7 @@ wohnungs
wolf
wolfram
wolfs
wolfsburg
wolke
wolken
woll
Expand Down Expand Up @@ -15061,6 +15093,7 @@ zeche
zeh
zehenspitze
zehn
zehnt
zehner
zehnerpotenz
zehntel
Expand Down
8 changes: 3 additions & 5 deletions charabia/src/segmenter/german.rs
Original file line number Diff line number Diff line change
Expand Up @@ -70,7 +70,7 @@ pub(crate) fn split_compound_words<'a>(
}

impl Segmenter for GermanSegmenter {
fn segment_str<'o>(&self, to_segment: &'o str) -> Box<dyn Iterator<Item = &'o str> + 'o> {
fn segment_str<'o>(&self, to_segment: &'o str) -> Box<dyn Iterator<Item=&'o str> + 'o> {
let dictionary = &*DICTIONARY;

let segments: Vec<&'o str> = to_segment
Expand Down Expand Up @@ -111,8 +111,7 @@ mod test {
"Strom",
"brücke",
" ",
"Magd",
"eburg",
"Magdeburg",
".",
];

Expand All @@ -138,8 +137,7 @@ mod test {
"strom",
"brucke",
" ",
"magd",
"eburg",
"magdeburg",
".",
];

Expand Down

0 comments on commit f27587b

Please sign in to comment.