Use new normality functions to do phonetic matching more precisely

opensanctions · Oct 7, 2023 · 4cebb37 · 4cebb37
1 parent 0b8fb94
commit 4cebb37
Show file tree

Hide file tree

Showing 2 changed files with 12 additions and 13 deletions.
diff --git a/nomenklatura/matching/compare/phonetic.py b/nomenklatura/matching/compare/phonetic.py
@@ -2,28 +2,26 @@
 from itertools import product
 from followthemoney.proxy import E
 from followthemoney.types import registry
-from normality.cleaning import decompose_nfkd, category_replace
-from fingerprints import clean_name_light, clean_entity_prefix, replace_types
-from nomenklatura.util import names_word_list, list_intersection
+from normality.scripts import is_modern_alphabet
+from fingerprints import clean_name_ascii, clean_entity_prefix
+from nomenklatura.util import names_word_list, list_intersection, fingerprint_name
 from nomenklatura.util import phonetic_token, metaphone_token, soundex_token
 from nomenklatura.matching.util import type_pair, has_schema
 
 
 def _clean_phonetic_person(original: str) -> Optional[str]:
     """Normalize a person name without transliteration."""
+    if not is_modern_alphabet(original):
+        return None
     text = clean_entity_prefix(original)
-    cleaned = clean_name_light(text)
-    cleaned = decompose_nfkd(cleaned)
-    return category_replace(cleaned)
+    return clean_name_ascii(text)
 
 
 def _clean_phonetic_entity(original: str) -> Optional[str]:
     """Normalize a legal entity name without transliteration."""
-    text = clean_entity_prefix(original)
-    cleaned = clean_name_light(text)
-    cleaned = decompose_nfkd(cleaned)
-    cleaned = category_replace(cleaned)
-    return replace_types(cleaned)
+    if not is_modern_alphabet(original):
+        return None
+    return fingerprint_name(original)
 
 
 def _phonetic_tokens(token: str) -> List[str]:

diff --git a/tests/matching/test_names.py b/tests/matching/test_names.py
@@ -132,7 +132,7 @@ def test_person_name_phonetic_match():
     result = e("Person", name="George Hussein Onyango Obama")
     assert person_name_phonetic_match(query, result) < 0.7
     result = e("Person", name="Բարակ Օբամա")
-    assert person_name_phonetic_match(query, result) < 0.7
+    assert person_name_phonetic_match(query, result) > 0.7
     result = e("Person", name="ジョージ")
     assert person_name_phonetic_match(query, result) < 0.7
     result = e("Person", name="Marie-Therese Abena Ondoa")
@@ -254,7 +254,8 @@ def test_jaro_lindemann():
 def test_name_alphabets():
     query = e("Person", name="Ротенберг Аркадий")
     result = e("Person", name="Arkadiii Romanovich Rotenberg")
-    assert person_name_phonetic_match(query, result) == 0.0
+    assert person_name_phonetic_match(query, result) > 0.0
+    assert person_name_phonetic_match(query, result) < 0.7
     assert person_name_jaro_winkler(query, result) > 0.7
 
     query = e("Person", name="Osama bin Laden")