首页 > 编程源码 > 【Python】4行代码,爬取网页,最精简的代码,没有之一

【Python】4行代码,爬取网页,最精简的代码,没有之一

楼主:代码精讲_阿宇 [1级] · 2020-4-5 ·  浏览689 · 编程源码 · ID:
这里我们主要介绍的 一种简便的,实用的,逻辑清晰,代码量少的

import requests #请求网页

from bs4 import BeautifulSoup #
分析html的结构

我们主要利用到2个库:requests,bs4

库的用法,读者请自行百度,

tips:bs4库非内置库,需要另行安装:pip3 install beautifulsoup4

然后,我们再对目标进行写入:

with open('picfile','wb') as f:
#这里的picfile为存放文件

f.write(pic)
#
这里pic为请求到的图片对象

ok,这样爬取到的pic就存到了picfile文件里了,这里介绍的为单目标存放,实际中都是多目标文件的,所以,接下来,我们将用到for循环进行处理:(请读者自行思考,如何加for循环)

爬虫代码如下:

import requests

pic = requests.get('网址')#改成需要爬取的网址

with open('picfile','wb') as f:

f.write(pic.content)#
前面有个缩进

#注:爬取成功后改一下文件名

这是最简单的入门例子,实际中,是多个内容一起爬取,下一步就是增加bs4库针对网站进行过滤,然后再加for循环进行批量存储,请读者进行思考
- 版权声明 - 1、本帖所有言论和图片等纯属网友个人意见,与流星社区立场无关;
2、其他单位或个人使用、转载或引用本帖时必须同时征得该帖子作者代码精讲_阿宇流星社区的同意;
3、备注原文地址:https://bbs.liuxingw.com/t/25996.html,可忽略第2条;
4、帖子作者需承担一切因本文发表而直接或间接导致的相关责任;
5、如本帖内容或部分内容转载自其它媒体,这并不代表本站赞同其观点和对其真实性负责;
6、如本帖若为资源类,将仅限用于学习和研究目的,您必须在下载后的24个小时之内,从您安装或使用的设备中彻底删除上述内容;
7、如果您喜欢该程序,请支持正版软件,购买注册,可以得到更好的正版服务;
8、如本帖侵犯到任何版权或违法问题,请立即邮件告知我们,我们将及时予以处理。
0条回复 |  最后回复于2020-4-6
登录注册 后才可进行评论
签到
5人签到
已签0天
  • 46624帖子
  • 1936696热点量
  • 184926火热值