Skip to content

Commit 9b8f101

Browse files
authored
Add files via upload
1 parent c9241e3 commit 9b8f101

File tree

5 files changed

+118
-5
lines changed

5 files changed

+118
-5
lines changed

EnglishtoTagalog.py

+51
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,51 @@
1+
from nltk.tokenize import word_tokenize
2+
import nltk.data
3+
import string
4+
import ModelTrainer
5+
import ModelTester
6+
import Utils
7+
8+
def sentence_tokenizer(sentence_list) :
9+
f_list = list()
10+
index_list = 0
11+
for sen in sentence_list:
12+
if index_list == 0 :
13+
sen = sen.replace(u'\ufeff', '')
14+
index_list += 1
15+
16+
tokens = word_tokenize(sen.lower())
17+
18+
output_sentence = ""
19+
20+
for token in tokens :
21+
output_sentence += token + " "
22+
23+
output_sentence = output_sentence[:(len(output_sentence)-1)] #remove last space
24+
f_list.append(output_sentence)
25+
26+
f_list[0] = f_list[0].replace(u'\ufeff', '') # ufeff character from document start
27+
return f_list
28+
29+
30+
def translate():
31+
tokenizer = nltk.data.load('tokenizers/punkt/tagalog.pickle')
32+
final_output = ""
33+
with open("input.txt") as f:
34+
english_data = f.readlines()
35+
36+
english_lines = sentence_tokenizer(english_data)
37+
38+
english_sentences = list()
39+
for line in english_lines :
40+
curr_line = tokenizer.tokenize(line)
41+
for sen in curr_line :
42+
english_sentences.append(sen)
43+
44+
otp_file = open("output.txt", "w+")
45+
for index in range(len(english_sentences)) :
46+
current_sentence = english_sentences[index]
47+
translated_sentence = ModelTester.sentence_tester1(current_sentence, 2)
48+
otp_file.write(translated_sentence)
49+
otp_file.write(". ")
50+
51+
print("Successfully translated! Translated document is 'output.txt' ")

Main.py

+5-5
Original file line numberDiff line numberDiff line change
@@ -1,7 +1,7 @@
11
import ModelTrainer
22
import ModelTester
3-
import DutchtoEnglish
4-
import EnglishtoDutch
3+
import TagalogtoEnglish
4+
import EnglishtoTagalog
55
import nltk
66

77
nltk.download('punkt')
@@ -23,7 +23,7 @@
2323
try:
2424
translate_option = int(input('Select translation option: \n\t1: tagalog to English \n\t2: English to tagalog\n'))
2525
except ValueError:
26-
print ("Not a number")
26+
print("Not a number")
2727
if translate_option > 2 or translate_option < 1 :
2828
print("Invalid Option")
2929
exit()
@@ -33,10 +33,10 @@
3333
print(translated_sentence)
3434

3535
elif mode == 3: #translate tagalog document to English
36-
DutchtoEnglish.translate()
36+
TagalogtoEnglish.translate()
3737

3838
elif mode == 4: #translate English document to tagalog
39-
EnglishtoDutch.translate()
39+
EnglishtoTagalog.translate()
4040

4141
elif mode == 5:
4242
break

TagalogtoEnglish.py

+51
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,51 @@
1+
from nltk.tokenize import word_tokenize
2+
import nltk.data
3+
import string
4+
import ModelTrainer
5+
import ModelTester
6+
import Utils
7+
8+
def sentence_tokenizer(sentence_list) :
9+
f_list = list()
10+
index_list = 0
11+
for sen in sentence_list:
12+
if index_list == 0 :
13+
sen = sen.replace(u'\ufeff', '')
14+
index_list += 1
15+
16+
tokens = word_tokenize(sen.lower())
17+
18+
otp_sentence = ""
19+
20+
for token in tokens :
21+
otp_sentence += token + " "
22+
23+
otp_sentence = otp_sentence[:(len(otp_sentence)-1)] #remove last space
24+
f_list.append(otp_sentence)
25+
26+
f_list[0] = f_list[0].replace(u'\ufeff', '') # ufeff character from document start
27+
return f_list
28+
29+
30+
def translate() :
31+
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
32+
f_Output = ""
33+
with open("input.txt") as f:
34+
tagalog_data = f.readlines()
35+
36+
tagalog_lines = sentence_tokenizer(tagalog_data)
37+
38+
tagalog_sentences = list()
39+
for line in tagalog_lines :
40+
l = tokenizer.tokenize(line)
41+
for sen in l :
42+
tagalog_sentences.append(sen)
43+
44+
otp_file = open("output.txt", "w+")
45+
for index in range(len(tagalog_sentences)) :
46+
current_sentence = tagalog_sentences[index]
47+
translated_sentence = ModelTester.sentence_tester1(current_sentence, 1)
48+
otp_file.write(translated_sentence)
49+
otp_file.write(". ")
50+
51+
print("Successfully translated! Translated document is 'output.txt' ")

input.txt

+10
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,10 @@
1+
Waarom wordt het rookverbod niet gehandhaafd in daarvoor aangewezen delen van het gebouw?
2+
Het is absoluut onaanvaardbaar dat wij wetgeving goedkeuren en dat wij ons daar zelf niet aan houden.
3+
Mevrouw Lynne, u hebt volkomen gelijk. Ik zal nagaan of dit inderdaad niet gebeurd is.
4+
Ik zal het vraagstuk verder aan het College van quaestoren voorleggen. Ik ben ervan overtuigd dat onze quaestoren ervoor zullen zorgdragen dat de wetgeving waarover we ons hebben uitgesproken, ook daadwerkelijk wordt nageleefd.
5+
Mevrouw de Voorzitter, mevrouw D�ez Gonz�lez en ikzelf hadden samen een aantal vragen gesteld naar aanleiding van bepaalde uitspraken van commissaris de Palacio in een Spaans dagblad.
6+
De voor de agenda verantwoordelijke diensten hebben die vragen niet op de agenda geplaatst, daar die vragen al in een andere vergaderperiode beantwoord zouden zijn.
7+
Daar dat niet zo is, verzoek ik het desbetreffende besluit te heroverwegen.
8+
De eerder beantwoorde vragen betreffen de bijdrage van mevrouw de Palacio over een ander dossier en gaan niet over de uitspraken die 18 november jongstleden in de krant ABC zijn verschenen.
9+
Waarde collega, we zullen dit alles natrekken.
10+
Ik moet u bekennen dat ik de situatie nu enigszins verwarrend vind.

output.txt

+1
Original file line numberDiff line numberDiff line change
@@ -0,0 +1 @@
1+
beast van . witch ons . airwaves . isle witch . college van . ben ervan de insomnia ons . de naar van van de beast . de de koroma’s eases de koroma’s eases al beast . witch rotorua . de de van de unreleased unreleased de eases 18 spinoff beast de abc . insomnia . airwaves de .

0 commit comments

Comments
 (0)