from bs4 import BeautifulSoup
import requests
def main(base_url):
# base_url='https://movie.douban.com/top250?start={}&filter='.format(start_name)
# print(base_url)
req=requests.get(base_url)
soup=BeautifulSoup(req.text,'lxml')
ol=soup.find("ol",class_="grid_view")
print(type(soup),type(ol))
li_list=ol.find_all('li')
for li in li_list:
img=li.find('img')
img_src=img['src']
title=li.find('span',class_="title").text.strip()
actor=li.find('div',class_="bd").p.get_text().strip()
star_info_all=li.find('div',class_='star').find_all('span')
mv_score=star_info_all[1].text.strip()
comment_num=star_info_all[2].text.strip()
print(title)
print(img_src)
print(actor)
print(mv_score)
print(comment_num)
print('-' * 50)
next_span=soup.find('span',class_='next')
next_a=next_span.find('a')
next_url=None #
if next_a:
next_url=next_a['href']
return 'https://movie.douban.com/top250'+next_url
if __name__=='__main__':
n_url=main('https://movie.douban.com/top250?start=0')
#page down
while n_url:
main(n_url)
抓取豆瓣网电影的例子
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
推荐阅读更多精彩内容
- 下面选了最近十年里,十位名人所做的毕业演讲。那么多的故事与经历,其实只想告诉你一件事: 面对迷茫和不确定的未来,我...
- 豆瓣提供了豆瓣开发者服务,通过其提供的豆瓣电影api v2我们可以快速抓取大量信息。 可以看到提供的接口为GET ...