前言
前几天出了《网络安全漏洞管理规定(征求意见稿》
搞的表哥们都很慌,有些大佬准备封站删博客保平安了。具体的大家可以去看看里面的新规,以后像我这种菜鸡更难白嫖一些免费教程了。我发现很多安全群里都在搞爬博客爬公众号爬星球。有些站都爬瘫了。正好总结一下平时常用的一些工具和方法(一些热门网站资源扒取的技巧),这里只是总结探讨爬虫技术。千万不要去爬用户数据隐私等,否则后果自负。已经有好些人被抓了(51信用卡等案例就不多说了)。关于爬虫的法律法规gayhub已经有人总结整理了案例,有兴趣可以了解一下。
中国大陆爬虫开发者涉诉与违规相关的新闻、资料与法律法规案例收集
使用wget命令爬网站(wiki、blog等)
可以wget -h
或者--help
去查看各个参数。常用的一些
参数说明
-c # 断点续传
-r # 递归下载
-np # 递归下载时不搜索上层目录
-nv # 显示简要信息
-nd # 递归下载时不创建一层一层的目录,把所有文件下载当前文件夹中
-p # 下载网页所需要的所有文件(图片,样式,js文件等)
-H # 当递归时是转到外部主机下载图片或链接
-k # 将绝对链接转换为相对链接,这样就可以在本地脱机浏览网页了
-L # 只扩展相对连接,该参数对于抓取指定站点很有用,可以避免向宿主主机
设置Cookie
–header=”Cookie: PHPSESSID=p4e51ihjf57ovvc9lui2abkvi0; first_vist=1;”
设置 User-Agent 为微信PC端
–user-agent=”Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 MicroMessenger/6.5.2.501 NetType/WIFI WindowsWechat QBCore/3.43.901.400 QQBrowser/9.0.2524.400”
伪造 Cookie、User-Agent 爬取
wget -c -r -npH -p -k -nv –header=”Cookie: first_vist=1;” –user-agent=’Mozilla/5.0 (Windows NT 6.1; WOW64) …’ http://updatebrowser.netnr.com/
基本爬站命令
wget -r -p -np -k www.xxx.org
k -p -nH -N –no-check-certificate #针对https,带证书忽略
-e robots=off #忽略robots
常用爬站命令
wget -r -p -np -e robots=off -k -E http://www.xxx.com/ –no-check-certificate -t 1
下载(扒)B站(www.bilibili.com)视频
之前爬B站视频有两个在线的网站很方便,现在功能有些限制了,需要关注什么公众号才能用(这个也无可厚非,工具作者通过一些流量收益去维持工具更新和服务器)或者下载失败。其实B站对于本身的视频并没有太多防护(目前为止是这样,只要网站不大改,介绍的这个方法都适用)。
先介绍一下手动逐个下载的方法,批量其实一样,只不过就是把这个流程用脚本批量完成。脚本没放上来,因为最近没时间写。[/狗头]
1、方法一:下载&配置youtube-dl.exe(通用方法)
官方介绍已经很详细了,安装和参数解释都讲的很清楚了。官方项目地址
我这里是win10
,介绍windows
上的使用,其他系统也一样,都是命令行工具。youtube-dl.exe
下载完放在一个目录下(除了系统的system32
目录外)。然后方便我们使用,把它添加到环境变量里(环境变量的作用:你使用命令运行的时候会去path变量的所有路径里寻找程序,如果没有添加,只能在exe所在目录下执行命令,添加以后就可以和linux在如何地方都可以运行命令)。1
2
3
4#链接替换你下载的,如果是系列课程后面一般会有?p=1,数字对应集数
#-o 后面跟的是输出路径和文件名,这样表示输出文件在当前所在目录,filename.m4s是文件名
youtube-dl http://www.bilibili.com/video/av12345 -o "filename.m4s"
#因为B站的视频是m4s的格式,这里后缀随便写或不写都没事。
然后下载完会有m4s文件,然后再用格式工厂
,选择——>MP4
,再把所有需要转换的文件拖进弹出来的对话框里,点击确定,点击开始
等待转换完成就好了,如果有需求也可以配置一下转换出来视频的参数。
ffmpeg:这个工具可以对音频切割、合并、转换、去水印、打码、以及m3u8切片加密等,很多网站的视频都可以用这个去处理(网易云课程、i春秋等),大部分视频处理工具底层也是这个(格式工厂等),很建议大家学习一下这个开源工具的使用。不用太过依赖现成的工具,要多了解点原理。
2.现成的资源嗅探工具
- chrome插件-
Flash Video Downloader
- IDMan浏览器插件
- www.bilibilijj.com
- www.ibilibili.com
注: 后面两个在线工具也有下载版的exe,最后一个需要关注公众号,前面两个插件下载下来同样是m4s文件,需要格式工厂转码,有时候会嗅探不完整。