首页 > 编程源码 > python网络爬虫(慕课网)

python网络爬虫(慕课网)

楼主:安仁轩 [3级] · 2019-11-20 ·  浏览887 · 编程源码 · ID:

代码:

##爬取网络:慕课网("

 此处内容已被隐藏,请评论后查看!
")

from bs4 import BeautifulSoup

import urllib.request

import xlwt

import time

time_star = time.time()

ur = ["mobile","python","java","php"] ##通过查看网页源代码,手动构造访问链接

url_basic, mingc, lianj, url, hda, x = [], [], [], [], [], 1

for j in range(len(ur)):

url_basic.append("

 此处内容已被隐藏,请评论后查看!
" + ur[j] +"&page=")

for i in range(7): ##网页个数最多为7

urll = url_basic[j] + str(i)

url.append(urll)

heads = {

'Connection': 'keep-alive',

'Accept-Language': 'zh-CN,zh;q=0.9',

'Accept': 'text/html,application/xhtml+xml,application/xml;\

q=0.9,image/webp,image/apng,*/*;q=0.8',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36\

(KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',

}

for key,value in heads.items():

items = (key,value)

hda.append(items)

opn = urllib.request.build_opener()

opn.addheaders = hda

urllib.request.install_opener(opn)

for i in url:

tr

- 版权声明 - 1、本帖所有言论和图片等纯属网友个人意见,与流星社区立场无关;
2、其他单位或个人使用、转载或引用本帖时必须同时征得该帖子作者安仁轩流星社区的同意;
3、备注原文地址:https://bbs.liuxingw.com/t/17931.html,可忽略第2条;
4、帖子作者需承担一切因本文发表而直接或间接导致的相关责任;
5、如本帖内容或部分内容转载自其它媒体,这并不代表本站赞同其观点和对其真实性负责;
6、如本帖若为资源类,将仅限用于学习和研究目的,您必须在下载后的24个小时之内,从您安装或使用的设备中彻底删除上述内容;
7、如果您喜欢该程序,请支持正版软件,购买注册,可以得到更好的正版服务;
8、如本帖侵犯到任何版权或违法问题,请立即邮件告知我们,我们将及时予以处理。
5条回复 |  最后回复于2020-7-8

安仁轩 [3级]

‭@ 顾清 ‬‬‬
发布于2019-11-20

回复列表

  • 内容加载中...

说点什么...

奘墨 [1级]

看不懂
发布于2019-11-20

回复列表

  • 内容加载中...

说点什么...

[]

啥玩意


发布于2020-3-4

回复列表

  • 内容加载中...

说点什么...

ghjjjmk [2级]

看看

发布于2020-7-2

回复列表

  • 内容加载中...

说点什么...

[]

JJ
发布于2020-7-8

回复列表

  • 内容加载中...

说点什么...
登录注册 后才可进行评论
签到
52人签到
已签0天
  • 46610帖子
  • 1936521热点量
  • 184829火热值