Add playwright.async_api.Page type hint to some examples

elacuesta · elacuesta · commit e3ee6156b057 · 2024-07-04T11:26:09.000-03:00
diff --git a/README.md b/README.md
@@ -448,14 +448,16 @@ This key could be used in conjunction with `playwright_include_page` to make a c
 requests using the same page. For instance:
 
 ```python
+from playwright.async_api import Page
+
 def start_requests(self):
     yield scrapy.Request(
         url="https://httpbin.org/get",
         meta={"playwright": True, "playwright_include_page": True},
     )
 
 def parse(self, response, **kwargs):
-    page = response.meta["playwright_page"]
+    page: Page = response.meta["playwright_page"]
     yield scrapy.Request(
         url="https://httpbin.org/headers",
         callback=self.parse_headers,
@@ -514,6 +516,7 @@ necessary the spider job could get stuck because of the limit set by the
 `PLAYWRIGHT_MAX_PAGES_PER_CONTEXT` setting.
 
 ```python
+from playwright.async_api import Page
 import scrapy
 
 class AwesomeSpiderWithPage(scrapy.Spider):
@@ -528,7 +531,7 @@ class AwesomeSpiderWithPage(scrapy.Spider):
         )
 
     def parse_first(self, response):
-        page = response.meta["playwright_page"]
+        page: Page = response.meta["playwright_page"]
         return scrapy.Request(
             url="https://example.com",
             callback=self.parse_second,
@@ -537,13 +540,13 @@ class AwesomeSpiderWithPage(scrapy.Spider):
         )
 
     async def parse_second(self, response):
-        page = response.meta["playwright_page"]
+        page: Page = response.meta["playwright_page"]
         title = await page.title()  # "Example Domain"
         await page.close()
         return {"title": title}
 
     async def errback_close_page(self, failure):
-        page = failure.request.meta["playwright_page"]
+        page: Page = failure.request.meta["playwright_page"]
         await page.close()
 ```
 
diff --git a/examples/books.py b/examples/books.py
@@ -3,6 +3,7 @@
 from pathlib import Path
 from typing import Generator, Optional
 
+from playwright.async_api import Page
 from scrapy import Spider
 from scrapy.http.response import Response
 
@@ -51,7 +52,7 @@ def parse(self, response: Response, current_page: Optional[int] = None) -> Gener
 
     async def parse_book(self, response: Response) -> dict:
         url_sha256 = hashlib.sha256(response.url.encode("utf-8")).hexdigest()
-        page = response.meta["playwright_page"]
+        page: Page = response.meta["playwright_page"]
         await page.screenshot(
             path=Path(__file__).parent / "books" / f"{url_sha256}.png", full_page=True
         )
diff --git a/examples/contexts.py b/examples/contexts.py
@@ -1,5 +1,6 @@
 from pathlib import Path
 
+from playwright.async_api import Page
 from scrapy import Spider, Request
 
 
@@ -96,7 +97,7 @@ def start_requests(self):
             )
 
     async def parse(self, response, **kwargs):
-        page = response.meta["playwright_page"]
+        page: Page = response.meta["playwright_page"]
         context_name = response.meta["playwright_context"]
         storage_state = await page.context.storage_state()
         await page.close()
diff --git a/examples/max_pages.py b/examples/max_pages.py
@@ -1,3 +1,4 @@
+from playwright.async_api import Page
 from scrapy import Spider, Request
 
 
@@ -45,5 +46,5 @@ def parse(self, response, **kwargs):
         return {"url": response.url}
 
     async def errback(self, failure):
-        page = failure.request.meta["playwright_page"]
+        page: Page = failure.request.meta["playwright_page"]
         await page.close()
diff --git a/examples/remote.py b/examples/remote.py
@@ -0,0 +1,26 @@
+import asyncio
+
+from scrapy import Spider, Request
+
+
+class RemoteSpider(Spider):
+    """Connect to a remote chromium instance."""
+
+    name = "scroll"
+    custom_settings = {
+        "TWISTED_REACTOR": "twisted.internet.asyncioreactor.AsyncioSelectorReactor",
+        "DOWNLOAD_HANDLERS": {
+            "https": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler",
+            # "http": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler",
+        },
+        # "PLAYWRIGHT_CDP_URL": "ws://localhost:3000",
+        "PLAYWRIGHT_CONNECT_URL": "ws:/localhost:61915/377758c4-4b49-41fe-9187-e4114197dea4",
+    }
+
+    def start_requests(self):
+        yield Request(url="https://example.com", meta={"playwright": True})
+
+    async def parse(self, response, **kwargs):
+        await asyncio.sleep(6)
+        yield {"url": response.url}
+        yield Request(url="https://example.org", meta={"playwright": True})
diff --git a/examples/storage.py b/examples/storage.py
@@ -1,3 +1,4 @@
+from playwright.async_api import Page
 from scrapy import Spider, Request
 from scrapy_playwright.page import PageMethod
 
@@ -27,7 +28,7 @@ def start_requests(self):
         )
 
     async def parse(self, response, **kwargs):
-        page = response.meta["playwright_page"]
+        page: Page = response.meta["playwright_page"]
         storage_state = await page.context.storage_state()
         await page.close()
         return {