销售员实战（1）－－会刊网站爬虫

销售最重要的就是数据，数据一般来源于网站，b2b, 还有一些会展的会刊。
这里要学习的，就是beautifulSoup网站，一段段小小的代码，5分钟可以帮你节约输入六个小时。
首先看看代码，

       __author__ = 'lixiang'
      #coding:utf-8
      from bs4 import BeautifulSoup
     import urllib2
     import re
     from openpyxl import Workbook

     urls = ['','','']  #网站保密
    links = []
    for url in urls:

    request = urllib2.Request(url)
    response = urllib2.urlopen(request)
    source = response.read()
    response.close()

    soup = BeautifulSoup(source)
    urlLink = soup.find_all(href=re.compile("custom_exhibitor"))
    number = len(urlLink)
    for numbers in range(number):
    links.append(urlLink[numbers]['href'])
    count = 2
    wb = Workbook()
     ws =wb.active

      for url in links:
            thtext=[]
             tdtext=[]
             text=[]
             text1=[]
              request = urllib2.Request(url)
              response = urllib2.urlopen(request)

               source=response.read()
               response.close()
               soup =BeautifulSoup(source)
               thtext = soup.find_all("th")
              tdtext = soup.find_all("td")
             length = len(thtext)
         for i in range(length):
                a = thtext[i].string
                text.append(a)
         for j in range(length):
              try:
                    b = tdtext[j].string.lstrip()
             except AttributeError:
                   b = tdtext[j].string

           text1.append(b)

         print text1[1]

       if count >1 :
             ws.append([text[i]for i in range(length)])
             count = count -1
       else:
            pass
       ws.append([text1[j]for j in range(length)])
       wb.save('文件名.xlsx')

以上代码，比较满意的是，可以爬数据了，但是有几个问题，如何让源代码可读性，比如是否可以实现类。以及多线程加快爬虫速度。

这是下一次迭代的事情。

感谢互联网，感谢知识，这就是效率吧。

最后编辑于：2017.11.27 02:51:44

销售员实战 （1）－－会刊网站爬虫

推荐阅读更多精彩内容

销售员实战（1）－－会刊网站爬虫