首页 > 编程源码 > 【python】爬虫实战系列！爬视频网2

【python】爬虫实战系列！爬视频网2

楼主：喜欢 [2级] · 2020-2-7 · 浏览2281 · 编程源码 · ID:

【前言】
在爬一个网站之前，我们得知道要爬的内容在哪？怎么获取它，然后爬它，这非常的重要！

【工具】
1、chrome 浏览
2、开发者模式

【实战】
版面太小，更新！

- 版权声明 - 1、本帖所有言论和图片等纯属网友个人意见，与流星社区立场无关；
2、其他单位或个人使用、转载或引用本帖时必须同时征得该帖子作者喜欢和流星社区的同意；
3、备注原文地址：https://bbs.liuxingw.com/t/23246.html，可忽略第2条；
4、帖子作者需承担一切因本文发表而直接或间接导致的相关责任；
5、如本帖内容或部分内容转载自其它媒体，这并不代表本站赞同其观点和对其真实性负责；
6、如本帖若为资源类，将仅限用于学习和研究目的，您必须在下载后的24个小时之内，从您安装或使用的设备中彻底删除上述内容；
7、如果您喜欢该程序，请支持正版软件，购买注册，可以得到更好的正版服务；
8、如本帖侵犯到任何版权或违法问题，请立即邮件告知我们，我们将及时予以处理。

40条回复 | 最后回复于2020-2-10

听语 [3级]

来我们团队吧

发布于2020-2-7

回复列表

内容加载中...

说点什么...

喜欢 [2级]

options.add_argument('--headless') # 设置无头模式，JS界面是不能用request库来爬取的，但是它可以用到一个测试框架selenium，这是调用了真实的浏览器来访问网页以达到爬取目的，但爬虫是不需要界面的因为那样很麻烦！所以我们需要一个没有界面的浏览器

发布于2020-2-7

回复列表

内容加载中...

说点什么...

喜欢 [2级]

options.add_argument('disable-infobars') # 隐藏"Chrome正在受到自动软件的控制这个我就图片给你们看下，它隐藏了什么东西。

发布于2020-2-7

回复列表

内容加载中...

说点什么...

喜欢 [2级]

user_ag = (

'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36') # 设置头部，这是反反爬里最常用但也最实用的一步，如果不实用它，爬虫就会像瓜皮一样告诉网站我是一个可恶的臭虫，我要来搞搞你了，所以务必加上它，它模拟了浏览器的访问

发布于2020-2-7

回复列表

内容加载中...

说点什么...

喜欢 [2级]

driver.get(url) 只有这行代码是正式访问网站，开启爬虫第一步

发布于2020-2-7

回复列表

内容加载中...

说点什么...

喜欢 [2级]

html = driver.page_source 取得网站内容，并保存在变量：html里面

发布于2020-2-7

回复列表

内容加载中...

说点什么...

喜欢 [2级]

driver.quit() 用于结束进程，关闭所有窗口。把无头浏览器给关闭掉，不能它没有界面就不去管他，这样你的电脑早晚会内存爆炸

发布于2020-2-7

回复列表

内容加载中...

说点什么...

喜欢 [2级]

return html 返回内容，以便其他函数进行读取分析

发布于2020-2-7

回复列表

内容加载中...

说点什么...

喜欢 [2级]

好啦今天就先到这啦

发布于2020-2-7

回复列表

内容加载中...

说点什么...

喜欢 [2级]

好的呀

发布于2020-2-7

回复列表

内容加载中...

说点什么...

登录注册后才可进行评论

签到

1人签到

已签0天

48672帖子
1966795热点量
198166火热值

登录注册

友情链接

优惠券线报大流量卡免费办流量消失器乐趣图床 ChatGPT问答测网速乐趣云API接口乐云挂机助手 ChatGPT独享号游魂博客人生重开模拟器制作收款码 IP属地查询流星社区交流群

【python】爬虫实战系列！爬视频网2

回复列表 默认排序 默认排序 最新回复

回复列表 默认排序 默认排序 最新回复

回复列表 默认排序 默认排序 最新回复

回复列表 默认排序 默认排序 最新回复

回复列表 默认排序 默认排序 最新回复

回复列表 默认排序 默认排序 最新回复

回复列表 默认排序 默认排序 最新回复

回复列表 默认排序 默认排序 最新回复

回复列表 默认排序 默认排序 最新回复

回复列表 默认排序 默认排序 最新回复

回复列表

回复列表

回复列表

回复列表

回复列表

回复列表

回复列表

回复列表

回复列表

回复列表