Add functional for take data from page

60128423 · Vasyl Bodnaruk · 3b2b44ce · 60128423
Commit 60128423 authored Jul 05, 2017 by Vasyl Bodnaruk
Hide whitespace changes
Inline Side-by-side

Showing with 15 additions and 2 deletions

aitop.py exa/exa/spiders/aitop.py +15 -2

No files found.
--- a/exa/exa/spiders/aitop.py
+++ b/exa/exa/spiders/aitop.py
 # -*- coding: utf-8 -*-
 import scrapy
+import dateparser
+from ..items import ExaItem


 class AitopSpider(scrapy.Spider):
    name = "aitop"
    allowed_domains = ["aitopics.org"]
-    start_urls = ['http://aitopics.org/']
+    start_urls = ['https://aitopics.org/search?filters=concept-tagsRaw%3AUber']

    def parse(self, response):
-        pass
+        try:
+            rows = response.xpath(".//div[contains(@class, 'summaries')]//div[@class='row']")
+            for i in rows:
+                item = dict()
+                item['date'] = dateparser.parse(i.xpath(".//time/@datetime").extract_first()).replace(tzinfo=None)
+                item['title'] = i.xpath(".//div[contains(@class, 'col-xs-12')]/h3/a/text()").extract_first()
+                item['description'] = i.xpath(".//div[@class='summary-content']/p/text()").extract_first()
+                item['url'] = i.xpath(".//div[contains(@class, 'col-xs-12')]/h3/a/@href").extract_first()
+                # print(item)
+
+        except:
+            pass