Spaces:

dpc
/

mmstts

Running

p commited on Jun 2, 2023

Commit

ba0fb36

1 Parent(s): 7b6aa43

enable some langs supported by num2words

Files changed (2) hide show

app.py CHANGED Viewed

@@ -47,8 +47,12 @@ lang_codes = {key + " (" + lang_codes[key] + ")": lang_codes[key] for key in lan
 # Extract language names
 language_names = list(lang_codes.keys())
-def convert_eng_numbers_to_words(text):
     # Find all numbers in the text using regex
     numbers = re.findall(r"\d+", text)
     # Sort numbers in descending order of length
@@ -57,7 +61,7 @@ def convert_eng_numbers_to_words(text):
     # Replace numbers with their word equivalents
     for number in sorted_numbers:
-        number_word = num2words(int(number))
         text = text.replace(number, number_word)
     return text
@@ -82,9 +86,9 @@ def prepare_sentences(text, lang="mya"):
         text = convert_mya_numbers_to_words(text)
         text = text.replace("\u104A", ",").replace("\u104B", ".")
-    if lang.lower() == "eng":
-        text = convert_eng_numbers_to_words(text)
     print("Processed text", text)
     paragraphs = [paragraph for paragraph in text.split("\n") if paragraph.strip()]

 # Extract language names
 language_names = list(lang_codes.keys())
+# Load num2words_lang_map
+with open("num2words_lang_map.json") as f:
+    num2words_lang_map = json.load(f, object_pairs_hook=OrderedDict)
+def convert_numbers_to_words_num2words(text, lang):
     # Find all numbers in the text using regex
     numbers = re.findall(r"\d+", text)
     # Sort numbers in descending order of length
     # Replace numbers with their word equivalents
     for number in sorted_numbers:
+        number_word = num2words(int(number), lang=num2words_lang_map[lang][0])
         text = text.replace(number, number_word)
     return text
         text = convert_mya_numbers_to_words(text)
         text = text.replace("\u104A", ",").replace("\u104B", ".")
+    if lang in num2words_lang_map:
+        print("num2words supports this lang", lang)
+        text = convert_numbers_to_words_num2words(text, lang)
     print("Processed text", text)
     paragraphs = [paragraph for paragraph in text.split("\n") if paragraph.strip()]

num2words_lang_map.json ADDED Viewed

+{
+    "eng": ["en", "English, default"],
+    "amh": ["am", "Amharic"],
+    "ara": ["ar", "Arabic"],
+    "deu": ["de", "German"],
+    "spa": ["es", "Spanish"],
+    "fas": ["fa", "Farsi"],
+    "fin": ["fi", "Finnish"],
+    "fra": ["fr", "French"],
+    "heb": ["he", "Hebrew"],
+    "hun": ["hu", "Hungarian"],
+    "ind": ["id", "Indonesian"],
+    "isl": ["is", "Icelandic"],
+    "kan": ["kn", "Kannada"],
+    "kor": ["ko", "Korean"],
+    "kaz": ["kz", "Kazakh"],
+    "lav": ["lv", "Latvian"],
+    "pol": ["pl", "Polish"],
+    "swe": ["sv", "Swedish"],
+    "ron": ["ro", "Romanian"],
+    "rus": ["ru", "Russian"],
+    "tel": ["te", "Telugu"],
+    "tgk": ["tg", "Tajik"],
+    "tur": ["tr", "Turkish"],
+    "tha": ["th", "Thai"],
+    "vie": ["vi", "Vietnamese"],
+    "nld": ["nl", "Dutch"],
+    "ukr": ["uk", "Ukrainian"]
+  }