Add parser for http://cdmnet.com.br/rss

schemen · schemen · commit e3f9d9d661fc · 2018-11-01T15:01:59.000+01:00
Resolves: #9
diff --git a/bin/Downloader.py b/bin/Downloader.py
@@ -6,6 +6,7 @@
 import bin.Helper as helper
 import bin.sourceparser.Mangastream as msparser
 import bin.sourceparser.Mangafox as mxparser
+import bin.sourceparser.Cdmnet as cdmparser
 from PIL import Image
 from PIL import ImageOps
 from PIL import ImageFilter
@@ -104,6 +105,24 @@ def data_processor(self):
             # Finish :)
             logging.info("Finished download of %s!", self.mangatitle)
 
+        # CDM Parser
+        elif self.origin == "cdmnet.com.br":
+            urllist = cdmparser.getPagesUrl(self.mangastarturl, self.mangapages)
+            
+            # check if we have images to download
+            if not len(urllist) == 0:
+
+                # Turn Manga pages into Image links!
+                logging.info("Starting download of %s...", self.mangatitle)
+                counter = 0
+                for i in urllist:
+                    counter = counter + 1
+                    self.downloader(i, counter, cdmparser.getImageUrl)
+
+
+            # Finish :)
+            logging.info("Finished download of %s!", self.mangatitle)
+
     def downloader(self, url, counter, parser):
         # Check if we have the Download folder
         helper.createFolder(self.downloadfolder)
diff --git a/bin/Helper.py b/bin/Helper.py
@@ -11,6 +11,7 @@
 from bin.Models import *
 import bin.sourceparser.Mangastream as msparser
 import bin.sourceparser.Mangafox as mxparser
+import bin.sourceparser.Cdmnet as cdmparser
 
 '''
 
@@ -475,7 +476,27 @@ def getMangaData(url, entry):
 
         mangadata = [manganame, pages, chapter, title, chapter_name, chapter_pubDate]
 
+    # CDM Parser
+    elif origin == "cdmnet.com.br":
+        logging.debug("Getting Mangadata from CDM. for %s" % url)
 
+        # Easy Stuff
+        title = entry.title
+        chapter_pubDate = entry.published
+
+        # Load page once to hand it over to parser function
+        logging.debug("Loading Page to gather data...")
+        page = requests.get(url)
+
+        # Getting the data
+        manganame = cdmparser.getTitle(page)
+        pages = cdmparser.getPages(page)
+        chapter = cdmparser.getChapter(url)
+        chapter_name = cdmparser.getChapterName(page)
+
+        logging.debug("Mangadata succesfully loaded")
+
+        mangadata = [manganame, pages, chapter, title, chapter_name, chapter_pubDate]
     else:
         logging.error("Not supportet origin!")
 
diff --git a/bin/sourceparser/Cdmnet.py b/bin/sourceparser/Cdmnet.py
@@ -0,0 +1,111 @@
+#!/usr/bin/env python
+import logging
+import re
+import requests
+from urllib.parse import urlparse
+from bs4 import BeautifulSoup
+
+'''
+
+        CDM Parser
+
+
+'''
+
+
+'''
+get Manga Title
+Returns: title
+'''
+def getTitle(page):
+    title = None
+    soup = BeautifulSoup(page.content, 'html.parser')
+
+    #Get Manga Titel
+    search = re.search('<meta content="(.*?) -.*?property="og:title">', str(soup))
+    try:
+        title = search.group(1)
+    except AttributeError:
+        logging.error("No Title Fount!")
+
+    return title
+
+
+'''
+get Manga Chapter name
+Returns: Chapter name
+'''
+def getChapterName(page):
+
+    logging.debug("CDM has no Chapternames")
+    chaptername = ""
+    return chaptername
+
+
+'''
+get Manga Pages
+Returns: integer pages
+'''
+def getPages(page):
+    soup = BeautifulSoup(page.content, 'html.parser')
+
+    #Get Manga Titel
+    search =re.search("var pages = \[.*'(.*?)',];", str(soup))
+    pages = search.group(1)
+    return pages
+
+
+
+'''
+get Manga chapter
+Returns: integer chapter
+'''
+def getChapter(url):
+    #soup = BeautifulSoup(page.content, 'html.parser')
+
+    search = re.search('ler-online/(.*?)\Z', str(url))
+    chapter = search.group(1)
+    return chapter
+
+'''
+get Manga Pages URL
+Returns: urllist
+'''
+def getPagesUrl(starturl,pages):
+    pagesurllist=[]
+
+    # Split URL to create list
+    parsed = urlparse(starturl)
+
+    # start url generator
+    for page in range(pages):
+        page = page + 1
+        fullurl = parsed.scheme + "://" + parsed.netloc + parsed.path + "#" + str(page)
+        pagesurllist.append(fullurl)
+
+    logging.debug("All pages:")
+    logging.debug(pagesurllist)
+    return pagesurllist
+
+
+
+'''
+get Manga Image URL
+Returns: urllist
+'''
+def getImageUrl(pageurl):
+    # Download Page
+    page = requests.get(pageurl)
+    soup = BeautifulSoup(page.content, 'html.parser')
+
+    # Get CDN URL suffix
+    search =re.search("var urlSulfix = '(.*?)';", str(soup))
+    cdnsuffix = search.group(1)
+
+    # Get pagenumber 
+    var = re.search('ler-online/.*?#(.*?)\Z', str(pageurl))
+    pagenumber = var.group(1).zfill(2)
+
+
+    imageurl = str(cdnsuffix + pagenumber + ".jpg")
+    return imageurl