用 Python 練習爬蟲。
- Web:臺北市資料大平台
- 爬取搜尋「臺北市內湖科技園區廠商名錄」的結果
- 取 API
- LV0 Taipei Open Data
自我延伸的巧思:
- 爬取的結果包含臺北市內湖科技園區各廠商的公司名稱、統一編號、公司地址、所在經度(ADDR_X)、所在緯度(ADDR_Y) 等標籤,可以選擇讀取其中某幾項。
- 可以選擇是否要將讀取結果存檔。
- Web:批踢踢實業坊
- LV1 PTT
- 僅嘗試爬取某看板第一頁的文章標題。
- 無法爬取需要滿 18 歲的看板名稱。
- LV1+2 PTT + cookie
自我延伸的巧思:
- 一律夾帶
over18=1
的 cookie - 可以選擇要讀取的看板名稱
- 可以自選要往前讀取的頁數
- 一律夾帶