第一周大作业- http://bj.58.com/pingbandiannao/爬虫

  1. 结果如下:


  2. 程序源码:

#!/usr/bin/env python
# -*- coding: utf8 -*-
import requests
from bs4 import BeautifulSoup
def get_links_from(who_sells):
urls = []
url_base = "http://bj.58.com/pingbandiannao/{}/".format(str(who_sells))
r = requests.get(url_base)
soup = BeautifulSoup(r.text, 'lxml')
for url in soup.select('tr.zzinfo td.t  a.t '):
urls.append(url.get("href").split('?')[0])
# print(urls)
return urls
def download(who_sells):
# r = requests.get(url, proxies=proxies, headers=headers)
urly = get_links_from(who_sells)
for url1 in urly:
#print(url1)
wb_data = requests.get(url1)
soup = BeautifulSoup(wb_data.text, 'lxml')
title = soup.title.text.strip()
price = soup.select('span.price_now i')
place = soup.select('div.palce_li i')
domain = soup.select('span.crb_i a')
views = soup.select('span.look_time')
# pr)int (views
data = {
'domain': domain[0].text,
'title': title,
'price': price[0].text,
'place': place[0].text,
'views': views[0].text,
'var' : '个人' if who_sells == 0 else '公司'
}
print (data)
def main():
download(0)
# get_links_from(who_sells=1)
if __name__ == '__main__':
main()
  1. 经验总结:方式
  • 学习了用STRIP()去除回车符号
    -学习了主函数的调用次序
  • 学习了中文字符串的显示
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1. 结果如下: 2. 程序源码: ``` #!/usr/bin/env python # -*- coding:...
    rdczowh阅读 334评论 0 0
  • frombs4importBeautifulSoup importtime,requests,re url='ht...
    chenchao981阅读 362评论 2 0
  • 徐霞客走到嵩山,天色已晚,决定投宿到少林寺。 少林寺建在嵩山的少室山,隐秘在树林中,故名得少林寺。 徐霞客加急脚步...
    无尽无尽夏阅读 1,012评论 2 0
  • 一切都是秀 害怕失败,害怕失意,害怕在年轻的季节里没有成功的狂喜,在夜深人静里,内心剧烈的挣扎撕离,在愤懑与无奈中...
    摆灵阅读 382评论 0 0
  • 我们的生活中有很多笼子。 有竹笼子,也有铁笼子,有看得见的笼子,也有看不见的笼子。 我知道这世上有一种笼子,看不见...
    萧灿同學阅读 230评论 0 0