首页 > 编程源码 > 【python】爬虫实战系列!爬视频网2

【python】爬虫实战系列!爬视频网2

楼主:喜欢 [2级] · 2020-2-7 ·  浏览2133 · 编程源码 · ID:
【前言】
在爬一个网站之前,我们得知道要爬的内容在哪?怎么获取它,然后爬它,这非常的重要!

【工具】
1、chrome 浏览
2、开发者模式

【实战】
版面太小, 更新!
- 版权声明 - 1、本帖所有言论和图片等纯属网友个人意见,与流星社区立场无关;
2、其他单位或个人使用、转载或引用本帖时必须同时征得该帖子作者喜欢流星社区的同意;
3、备注原文地址:https://bbs.liuxingw.com/t/23246.html,可忽略第2条;
4、帖子作者需承担一切因本文发表而直接或间接导致的相关责任;
5、如本帖内容或部分内容转载自其它媒体,这并不代表本站赞同其观点和对其真实性负责;
6、如本帖若为资源类,将仅限用于学习和研究目的,您必须在下载后的24个小时之内,从您安装或使用的设备中彻底删除上述内容;
7、如果您喜欢该程序,请支持正版软件,购买注册,可以得到更好的正版服务;
8、如本帖侵犯到任何版权或违法问题,请立即邮件告知我们,我们将及时予以处理。
40条回复 |  最后回复于2020-2-10

听语 [3级]

来我们团队吧
发布于2020-2-7

回复列表

  • 内容加载中...

说点什么...

喜欢 [2级]

options.add_argument('--headless') # 设置无头模式 ,JS界面是不能用request库来爬取的,但是它可以用到一个测试框架selenium,这是调用了真实的浏览器来访问网页以达到爬取目的,但爬虫是不需要界面的因为那样很麻烦!所以我们需要一个没有界面的浏览器
发布于2020-2-7

回复列表

  • 内容加载中...

说点什么...

喜欢 [2级]

options.add_argument('disable-infobars') # 隐藏"Chrome正在受到自动软件的控制 这个我就图片给你们看下,它隐藏了什么东西。
发布于2020-2-7

回复列表

  • 内容加载中...

说点什么...

喜欢 [2级]

user_ag = (



'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36') # 设置头部 ,这是反反爬里最常用但也最实用的一步,如果不实用它,爬虫就会像瓜皮一样告诉网站我是一个可恶的臭虫,我要来搞搞你了,所以务必加上它,它模拟了浏览器的访问
发布于2020-2-7

回复列表

  • 内容加载中...

说点什么...

喜欢 [2级]

driver.get(url) 只有这行代码是正式访问网站,开启爬虫第一步
发布于2020-2-7

回复列表

  • 内容加载中...

说点什么...

喜欢 [2级]

html = driver.page_source 取得网站内容,并保存在变量:html里面
发布于2020-2-7

回复列表

  • 内容加载中...

说点什么...

喜欢 [2级]

driver.quit() 用于结束进程 ,关闭所有窗口。把无头浏览器给关闭掉,不能它没有界面就不去管他,这样你的电脑早晚会内存爆炸
发布于2020-2-7

回复列表

  • 内容加载中...

说点什么...

喜欢 [2级]

return html 返回内容,以便其他函数进行读取分析
发布于2020-2-7

回复列表

  • 内容加载中...

说点什么...

喜欢 [2级]

好啦今天就先到这啦
发布于2020-2-7

回复列表

  • 内容加载中...

说点什么...

喜欢 [2级]

好的呀
发布于2020-2-7

回复列表

  • 内容加载中...

说点什么...
登录注册 后才可进行评论
签到
38人签到
已签0天
  • 46621帖子
  • 1936617热点量
  • 184891火热值