wiki_enterprise_python/demo1/spiders/shanxigongxintingSpider.py


								import scrapy

								from uuid import uuid4

								import re

								from demo1.custom_settings_conf import *

								from demo1.items import Shouyelianjie

								from scrapy.utils.project import get_project_settings

								from scrapy.spiders import CrawlSpider, Rule

								from scrapy.linkextractors import LinkExtractor

								import pymysql

								import logging

								import json

								import time

								from lxml  import  etree

								from urllib import parse

								from demo1.Util import Util_WANG

								#山西省工业和信息厅

								class sxsshangwutingSpider(scrapy.Spider,Util_WANG):

								    name = 'sxgongxintingSpider'

								    settings = get_project_settings()

								    allowed_domains = ['gxt.shanxi.gov.cn']

								    custom_settings = custom_settings_conf_sxgongxintingSpider

								    start_urls = ['http://gxt.shanxi.gov.cn/web/cateList.html?id=26&word=&pageIndex=1']


								    def __init__(self, name=None, **kwargs):

								        self.db = pymysql.connect(

								            host=self.settings['MYSQL_HOST'],

								            database=self.settings['MYSQL_DATABASE'],

								            user=self.settings['MYSQL_USER'],

								            password=self.settings['MYSQL_PASSWORD'],

								            port=3306,

								            charset='utf8',

								            cursorclass=pymysql.cursors.DictCursor,

								            use_unicode=True

								        )

								        self.cursor = self.db.cursor()

								    def parse(self, response):

								        lis=response.xpath('//*[@class="zwgk-ul"]/li[not(@style)]')

								        for li in lis:

								             item=Shouyelianjie()

								             item['laiyuan']='山西省工业和信息厅'

								             item['lianjie']=response.urljoin( li.xpath('./a/@href').extract_first())

								             shijian=li.xpath('./i/text()').extract_first()

								             item['shijian']=datetime.datetime.strptime(shijian,'%Y-%m-%d %H:%M:%S').strftime('%Y-%m-%d')

								             item['biaoti']=li.xpath('./a/text()').extract_first()

								             #测试用得

								             #item['lianjie']='http://gxt.shanxi.gov.cn/web/content.html?id=1511'

								             if not self.settings.get("ISQUANPA"):

								                 self.cursor.execute(

								                     'select count(title_url) as nums FROM t_policy where title_url ="{}"'.format(item['lianjie']))

								                 res = self.cursor.fetchall()[0].get('nums')

								                 if res == 0:

								                     if Util_WANG.pos_url(item, self.settings):

								                         yield item

								                     else:

								                         yield scrapy.Request(url=item['lianjie'], meta={'item': item}, callback=self.page_url)

								                 else:

								                     logging.info('这个链接已经爬过了-----：' + item['lianjie'])

								             else:

								                 if Util_WANG.pos_url(item, self.settings):

								                     yield item

								                 else:

								                     yield scrapy.Request(url=item['lianjie'], meta={'item': item}, callback=self.page_url)

								        if self.settings.get("ISQUANPA"):

								            try:

								                next_page=response.urljoin(response.xpath('//a[contains(text(),"下一页")]/@href').extract_first())

								                # if curry_page < count_page:

								                #     urls = 'https://www.mct.gov.cn/whzx/ggtz/index_' + str(curry_page) + '.htm'

								                #     yield scrapy.Request(url=urls, callback=self.parse)

								                current_url=response.url

								                if next_page!=current_url:

								                    yield scrapy.Request(url=next_page, callback=self.parse)

								            except Exception as e:

								                logging(e)

								                logging.info('因为异常：全部爬取完毕')

								            else:

								                logging.info('全部爬取完毕')

								    def page_url(self,response):

								        item=response.meta['item']

								        item['xiangqing']=response.xpath('//*[contains(@class,"textbody")]').extract_first()

								        wenjiande=response.xpath('//*[@class="attachment"]').extract_first()

								        if wenjiande is not None:

								           item['xiangqing']+=wenjiande

								        self.tihuan_a_return(item, self.settings.get('FILE_PATH'), response)

								        self.tihuan_img_return(item, self.settings.get('MESSAGE'), response)

								        yield item

								    def a_fun(self,href):

								        pass

								    def img_fun(self, src):

								        pass