Add files via upload

JakeCob · web-flow · commit 9b8f1019fb2b · 2022-08-03T21:41:58.000+08:00
diff --git a/EnglishtoTagalog.py b/EnglishtoTagalog.py
@@ -0,0 +1,51 @@
+from nltk.tokenize import word_tokenize
+import nltk.data
+import string
+import ModelTrainer
+import ModelTester
+import Utils
+
+def sentence_tokenizer(sentence_list) :
+    f_list = list()
+    index_list = 0
+    for sen in sentence_list:
+        if index_list == 0 :
+            sen = sen.replace(u'\ufeff', '')
+            index_list += 1
+
+        tokens = word_tokenize(sen.lower())
+
+        output_sentence = ""
+
+        for token in tokens :
+            output_sentence += token + " "
+        
+        output_sentence = output_sentence[:(len(output_sentence)-1)]  #remove last space
+        f_list.append(output_sentence)    
+
+    f_list[0] = f_list[0].replace(u'\ufeff', '')  # ufeff character from document start
+    return f_list    
+
+
+def translate():
+    tokenizer = nltk.data.load('tokenizers/punkt/tagalog.pickle')
+    final_output = ""
+    with open("input.txt") as f:
+        english_data = f.readlines()
+
+    english_lines = sentence_tokenizer(english_data)
+
+    english_sentences = list()
+    for line in english_lines :
+        curr_line = tokenizer.tokenize(line)
+        for sen in curr_line :
+            english_sentences.append(sen)
+
+    otp_file = open("output.txt", "w+")
+    for index in range(len(english_sentences)) :
+        current_sentence = english_sentences[index]
+        translated_sentence = ModelTester.sentence_tester1(current_sentence, 2)
+        otp_file.write(translated_sentence)
+        otp_file.write(". ")
+        
+    print("Successfully translated! Translated document is 'output.txt' ")
diff --git a/Main.py b/Main.py
@@ -1,7 +1,7 @@
 import ModelTrainer
 import ModelTester
-import DutchtoEnglish
-import EnglishtoDutch
+import TagalogtoEnglish
+import EnglishtoTagalog
 import nltk
 
 nltk.download('punkt')
@@ -23,7 +23,7 @@
         try:
             translate_option = int(input('Select translation option: \n\t1: tagalog to English \n\t2: English to tagalog\n'))
         except ValueError:
-            print ("Not a number")
+            print("Not a number")
         if translate_option > 2 or translate_option < 1 :
             print("Invalid Option")
             exit()
@@ -33,10 +33,10 @@
         print(translated_sentence)
 
     elif mode == 3:             #translate tagalog document to English
-        DutchtoEnglish.translate()
+        TagalogtoEnglish.translate()
 
     elif mode == 4:             #translate English document to tagalog
-        EnglishtoDutch.translate()
+        EnglishtoTagalog.translate()
 
     elif mode == 5:
         break
diff --git a/TagalogtoEnglish.py b/TagalogtoEnglish.py
@@ -0,0 +1,51 @@
+from nltk.tokenize import word_tokenize
+import nltk.data
+import string
+import ModelTrainer
+import ModelTester
+import Utils
+
+def sentence_tokenizer(sentence_list) :
+    f_list = list()
+    index_list = 0
+    for sen in sentence_list:
+        if index_list == 0 :
+            sen = sen.replace(u'\ufeff', '')
+            index_list += 1
+
+        tokens = word_tokenize(sen.lower())
+
+        otp_sentence = ""
+
+        for token in tokens :
+            otp_sentence += token + " "
+        
+        otp_sentence = otp_sentence[:(len(otp_sentence)-1)]  #remove last space
+        f_list.append(otp_sentence)    
+
+    f_list[0] = f_list[0].replace(u'\ufeff', '')  # ufeff character from document start
+    return f_list    
+
+
+def translate() :
+    tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
+    f_Output = ""
+    with open("input.txt") as f:
+        tagalog_data = f.readlines()
+
+    tagalog_lines = sentence_tokenizer(tagalog_data)
+
+    tagalog_sentences = list()
+    for line in tagalog_lines :
+        l = tokenizer.tokenize(line)
+        for sen in l :
+            tagalog_sentences.append(sen)
+
+    otp_file = open("output.txt", "w+")
+    for index in range(len(tagalog_sentences)) :
+        current_sentence = tagalog_sentences[index]
+        translated_sentence = ModelTester.sentence_tester1(current_sentence, 1)
+        otp_file.write(translated_sentence)
+        otp_file.write(". ")
+        
+    print("Successfully translated! Translated document is 'output.txt' ")
diff --git a/input.txt b/input.txt
@@ -0,0 +1,10 @@
+Waarom wordt het rookverbod niet gehandhaafd in daarvoor aangewezen delen van het gebouw?
+Het is absoluut onaanvaardbaar dat wij wetgeving goedkeuren en dat wij ons daar zelf niet aan houden.
+Mevrouw Lynne, u hebt volkomen gelijk. Ik zal nagaan of dit inderdaad niet gebeurd is.
+Ik zal het vraagstuk verder aan het College van quaestoren voorleggen. Ik ben ervan overtuigd dat onze quaestoren ervoor zullen zorgdragen dat de wetgeving waarover we ons hebben uitgesproken, ook daadwerkelijk wordt nageleefd.
+Mevrouw de Voorzitter, mevrouw D�ez Gonz�lez en ikzelf hadden samen een aantal vragen gesteld naar aanleiding van bepaalde uitspraken van commissaris de Palacio in een Spaans dagblad.
+De voor de agenda verantwoordelijke diensten hebben die vragen niet op de agenda geplaatst, daar die vragen al in een andere vergaderperiode beantwoord zouden zijn.
+Daar dat niet zo is, verzoek ik het desbetreffende besluit te heroverwegen.
+De eerder beantwoorde vragen betreffen de bijdrage van mevrouw de Palacio over een ander dossier en gaan niet over de uitspraken die 18 november jongstleden in de krant ABC zijn verschenen.
+Waarde collega, we zullen dit alles natrekken.
+Ik moet u bekennen dat ik de situatie nu enigszins verwarrend vind.
diff --git a/output.txt b/output.txt
@@ -0,0 +1 @@
+beast van . witch ons . airwaves . isle witch . college van . ben ervan de insomnia ons . de naar van van de beast . de de koroma’s eases de koroma’s eases al beast . witch rotorua . de de van de unreleased unreleased de eases 18 spinoff beast de abc . insomnia . airwaves de . 

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	`+beast van . witch ons . airwaves . isle witch . college van . ben ervan de insomnia ons . de naar van van de beast . de de koroma’s eases de koroma’s eases al beast . witch rotorua . de de van de unreleased unreleased de eases 18 spinoff beast de abc . insomnia . airwaves de .`