博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python爬虫-豆瓣电影的尝试
阅读量:4551 次
发布时间:2019-06-08

本文共 810 字,大约阅读时间需要 2 分钟。

一、背景介绍

1. 使用工具

  Pycharm

2. 安装的第三方库

  requests、BeautifulSoup

  2.1 如何安装第三方库

  File => Settings => Project Interpreter => + 中搜索你需要的插件

  

 

3. 可掌握的小知识

  1. 根据url 获取页面html内容

  2. 解析html内容,选出自己需要的内容

 二、代码示例

  网页的样子是这个,获取排行榜中电影的名字

 

1 import requests 2 from bs4 import BeautifulSoup 3  4 def getHtml(): 5     url = 'https://movie.douban.com/chart' 6     # Get获取改页面的内容 7     html = requests.get(url) 8     # 用lxml解析器解析该页面的内容 9     soup = BeautifulSoup(html.content, "lxml")10     getFilmName(soup)11     # print(soup)12 13 14 def getFilmName(html):15     for i in html.find_all('a', class_="nbg"):16         img = i.find('img')17         print(img['alt'])18 19 20 getHtml() 返回值:

恶人传

孟买酒店
阿丽塔:战斗天使
雷霆沙赞!
夏目友人帐
地久天长
调音师
三夫
寄生虫
地狱男爵:血皇后崛起

 三、结语

  先从简单的入手,帮助自己,也希望能帮助未入门的同学

 

转载于:https://www.cnblogs.com/milicool/p/11244597.html

你可能感兴趣的文章
SQL 中的 case when
查看>>
【DeepLearning】GoogLeNet
查看>>
【手撸一个ORM】第六步、对象表达式解析和Select表达式解析
查看>>
MsDepSvc 启动失败
查看>>
总结十四
查看>>
泛型约束
查看>>
websocket入门
查看>>
AOP技术分析
查看>>
jdk keytools for spring-boot
查看>>
百度前端学习日记03——CSS选择器
查看>>
二维数组和二级指针
查看>>
HDOJ_就这么个烂题总是WA先放这把
查看>>
十大经典官场小说
查看>>
aws centos系统磁盘扩容
查看>>
stages
查看>>
!!!??? 2.3 核心模块与应用程序的对比
查看>>
jQuery介绍
查看>>
Embeded linux之gpio
查看>>
使用PG的部分索引
查看>>
十二 链表的实现
查看>>