销售员实战 (1)--会刊网站爬虫

销售最重要的就是数据 ,数据一般来源于网站,b2b, 还有一些会展的会刊。
这里要学习的,就是beautifulSoup网站, 一段段小小的代码,5分钟可以帮你节约输入六个小时。
首先看看代码,

       __author__ = 'lixiang'
      #coding:utf-8
      from bs4 import BeautifulSoup
     import urllib2
     import re
     from openpyxl import Workbook

     urls = ['','','']  #网站保密
    links = []
    for url in urls:

    request = urllib2.Request(url)
    response = urllib2.urlopen(request)
    source = response.read()
    response.close()

    soup = BeautifulSoup(source)
    urlLink = soup.find_all(href=re.compile("custom_exhibitor"))
    number = len(urlLink)
    for numbers in range(number):
    links.append(urlLink[numbers]['href'])
    count = 2
    wb = Workbook()
     ws =wb.active

      for url in links:
            thtext=[]
             tdtext=[]
             text=[]
             text1=[]
              request = urllib2.Request(url)
              response = urllib2.urlopen(request)

               source=response.read()
               response.close()
               soup =BeautifulSoup(source)
               thtext = soup.find_all("th")
              tdtext = soup.find_all("td")
             length = len(thtext)
         for i in range(length):
                a = thtext[i].string
                text.append(a)
         for j in range(length):
              try:
                    b = tdtext[j].string.lstrip()
             except AttributeError:
                   b = tdtext[j].string

           text1.append(b)

         print text1[1]

       if count >1 :
             ws.append([text[i]for i in range(length)])
             count = count -1
       else:
            pass
       ws.append([text1[j]for j in range(length)])
       wb.save('文件名.xlsx')

以上代码,比较满意的是,可以爬数据了,但是有几个问题, 如何让源代码可读性,比如是否可以实现类。 以及多线程加快爬虫速度。

这是下一次迭代的事情。

感谢互联网,感谢知识,这就是效率吧。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容