SpongeB0B

  • 主页
  • 归档
所有文章 推荐网站 about me

SpongeB0B

  • 主页
  • 归档

爬虫技术总结

2019-11-29

前言

前几天出了《网络安全漏洞管理规定(征求意见稿》搞的表哥们都很慌,有些大佬准备封站删博客保平安了。具体的大家可以去看看里面的新规,以后像我这种菜鸡更难白嫖一些免费教程了。我发现很多安全群里都在搞爬博客爬公众号爬星球。有些站都爬瘫了。正好总结一下平时常用的一些工具和方法(一些热门网站资源扒取的技巧),这里只是总结探讨爬虫技术。千万不要去爬用户数据隐私等,否则后果自负。已经有好些人被抓了(51信用卡等案例就不多说了)。关于爬虫的法律法规gayhub已经有人总结整理了案例,有兴趣可以了解一下。
中国大陆爬虫开发者涉诉与违规相关的新闻、资料与法律法规案例收集

使用wget命令爬网站(wiki、blog等)

可以wget -h或者--help去查看各个参数。常用的一些

参数说明

-c # 断点续传
-r # 递归下载
-np # 递归下载时不搜索上层目录
-nv # 显示简要信息
-nd # 递归下载时不创建一层一层的目录,把所有文件下载当前文件夹中
-p # 下载网页所需要的所有文件(图片,样式,js文件等)
-H # 当递归时是转到外部主机下载图片或链接
-k # 将绝对链接转换为相对链接,这样就可以在本地脱机浏览网页了
-L # 只扩展相对连接,该参数对于抓取指定站点很有用,可以避免向宿主主机

设置Cookie

–header=”Cookie: PHPSESSID=p4e51ihjf57ovvc9lui2abkvi0; first_vist=1;”

设置 User-Agent 为微信PC端

–user-agent=”Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 MicroMessenger/6.5.2.501 NetType/WIFI WindowsWechat QBCore/3.43.901.400 QQBrowser/9.0.2524.400”

伪造 Cookie、User-Agent 爬取

wget -c -r -npH -p -k -nv –header=”Cookie: first_vist=1;” –user-agent=’Mozilla/5.0 (Windows NT 6.1; WOW64) …’ http://updatebrowser.netnr.com/

基本爬站命令

wget -r -p -np -k www.xxx.org
k -p -nH -N –no-check-certificate #针对https,带证书忽略
-e robots=off #忽略robots

常用爬站命令

wget -r -p -np -e robots=off -k -E http://www.xxx.com/ –no-check-certificate -t 1

下载(扒)B站(www.bilibili.com)视频

之前爬B站视频有两个在线的网站很方便,现在功能有些限制了,需要关注什么公众号才能用(这个也无可厚非,工具作者通过一些流量收益去维持工具更新和服务器)或者下载失败。其实B站对于本身的视频并没有太多防护(目前为止是这样,只要网站不大改,介绍的这个方法都适用)。
先介绍一下手动逐个下载的方法,批量其实一样,只不过就是把这个流程用脚本批量完成。脚本没放上来,因为最近没时间写。[/狗头]

1、方法一:下载&配置youtube-dl.exe(通用方法)

官方介绍已经很详细了,安装和参数解释都讲的很清楚了。官方项目地址
我这里是win10,介绍windows上的使用,其他系统也一样,都是命令行工具。youtube-dl.exe
下载完放在一个目录下(除了系统的system32目录外)。然后方便我们使用,把它添加到环境变量里(环境变量的作用:你使用命令运行的时候会去path变量的所有路径里寻找程序,如果没有添加,只能在exe所在目录下执行命令,添加以后就可以和linux在如何地方都可以运行命令)。

1
2
3
4
#链接替换你下载的,如果是系列课程后面一般会有?p=1,数字对应集数
#-o 后面跟的是输出路径和文件名,这样表示输出文件在当前所在目录,filename.m4s是文件名
youtube-dl http://www.bilibili.com/video/av12345 -o "filename.m4s"
#因为B站的视频是m4s的格式,这里后缀随便写或不写都没事。

然后下载完会有m4s文件,然后再用格式工厂,选择——>MP4,再把所有需要转换的文件拖进弹出来的对话框里,点击确定,点击开始等待转换完成就好了,如果有需求也可以配置一下转换出来视频的参数。
ffmpeg:这个工具可以对音频切割、合并、转换、去水印、打码、以及m3u8切片加密等,很多网站的视频都可以用这个去处理(网易云课程、i春秋等),大部分视频处理工具底层也是这个(格式工厂等),很建议大家学习一下这个开源工具的使用。不用太过依赖现成的工具,要多了解点原理。

2.现成的资源嗅探工具
  • chrome插件-Flash Video Downloader
  • IDMan浏览器插件
  • www.bilibilijj.com
  • www.ibilibili.com
    注: 后面两个在线工具也有下载版的exe,最后一个需要关注公众号,前面两个插件下载下来同样是m4s文件,需要格式工厂转码,有时候会嗅探不完整。
赏

谢谢鼓励!。◕ᴗ◕。

支付宝
微信
  • wget
  • 爬虫
  • youtube-dl
  • B站

扫一扫,分享到微信

微信分享二维码
简单逆向工程习题详解write up
  1. 1. 前言
  2. 2. 使用wget命令爬网站(wiki、blog等)
    1. 2.0.1. 参数说明
    2. 2.0.2. 设置Cookie
    3. 2.0.3. 设置 User-Agent 为微信PC端
    4. 2.0.4. 伪造 Cookie、User-Agent 爬取
    5. 2.0.5. 基本爬站命令
    6. 2.0.6. 常用爬站命令
  • 3. 下载(扒)B站(www.bilibili.com)视频
    1. 3.0.1. 1、方法一:下载&配置youtube-dl.exe(通用方法)
    2. 3.0.2. 2.现成的资源嗅探工具
  • Like Issue Page
    Error: Comments Not Initialized
    Login with GitHub
    Styling with Markdown is supported
    Powered by Gitment
    © 2020 SpongeB0B
    Hexo Theme Yilia by Litten
    总访问量: 14215| 总访客: 12376
    • 所有文章
    • 推荐网站
    • about me

    tag:

    • binwalk
    • 隐写
    • 安装部署
    • 固件解包
    • 文件提取
    • 签名扫描
    • 熵分析
    • 可执行代码扫描
    • 反汇编指令识别
    • 暴力识别压缩数据流
    • 命令参数详解
    • git
    • IDA Pro 7.0
    • IDA
    • 逆向分析
    • 物联网安全
    • 智能硬件
    • 固件安全
    • 科普
    • IT知识
    • 安装系统
    • 电脑硬件
    • burpsuite
    • burpsuite pro-v2.0破解版
    • 破解版安装激活
    • foremost
    • 文件恢复
    • 文件分离
    • 参数详解
    • ctf
    • write up
    • 加解密
    • 注入
    • 脚本
    • 文件上传
    • docker
    • linux
    • 容器
    • 镜像
    • Dockerfile
    • 抓包
    • 爆破
    • 刷票
    • 逻辑漏洞
    • pwn
    • pwntools
    • Ubuntu
    • 修改密码
    • 修改账户名
    • apt-get相关问题
    • kali
    • firmware-mod-kit
    • 系统命令
    • 汇编语言
    • 移动安全
    • 安全架构
    • Android系统
    • Android安全模型
    • 移动安全地下产业链
    • winhex
    • ctf misc
    • 十六进制编辑
    • 修改软件
    • 社会工程学
    • 凯文·米特尼克
    • 欺骗的艺术
    • python
    • 安装
    • 基础语法
    • 墨者学院
    • 在线靶场
    • web安全
    • 代码审计
    • 取证分析
    • webshell
    • 上传漏洞
    • 绕过
    • 木马
    • CTF
    • php
    • asp
    • aspx
    • jsp
    • 一句话马
    • 恶意软件分析
    • 编程
    • 教程
    • wget
    • 爬虫
    • youtube-dl
    • B站
    • strings
    • UPX
    • 恶意软件
    • 数字取证
    • 密码
    • misc
    • Android逆向
    • java逆向
    • 凯撒密码
    • flag

      缺失模块。
      1、请确保node版本大于6.2
      2、在博客根目录(注意不是yilia根目录)执行以下命令:
      npm i hexo-generator-json-content --save

      3、在根目录_config.yml里添加配置:

        jsonContent:
          meta: false
          pages: false
          posts:
            title: true
            date: true
            path: true
            text: false
            raw: false
            content: false
            slug: false
            updated: false
            comments: false
            link: false
            permalink: false
            excerpt: false
            categories: false
            tags: true
      

    • 爬虫技术总结

      2019-11-29

      #wget#爬虫#youtube-dl#B站

    • 简单逆向工程习题详解write up

      2019-11-19

      #write up#Android逆向#java逆向#凯撒密码#flag

    • IT知识小科普

      2019-11-05

      #科普#IT知识#安装系统#电脑硬件

    • 恶意代码原理与分析基础

      2019-10-15

      #strings#UPX#恶意软件

    • kali环境配置以及工具安装

      2019-10-11

      #binwalk#linux#kali#firmware-mod-kit#系统命令

    • ubuntu 16.04常见问题解决方法

      2019-08-30

      #Ubuntu#修改密码#修改账户名#apt-get相关问题

    • 【密】移动APP安全分析基础

      2019-08-20

      #移动安全#安全架构#Android系统#Android安全模型#移动安全地下产业链

    • pwntools简介

      2019-03-06

      #pwn#pwntools

    • 移动应用安全wiki

      2019-03-05

    • IDA pro简介

      2019-02-19

      #IDA Pro 7.0#IDA#逆向分析

    • 安全思维导图集合整理

      2019-02-15

      #web安全#代码审计#CTF

    • 【密】软件逆向教程(一)——80X86汇编语言

      2019-02-14

      #汇编语言

    • foremost使用简介

      2019-01-30

      #foremost#文件恢复#文件分离#参数详解

    • BinWalk安装和命令参数详解

      2019-01-21

      #binwalk#隐写#安装部署#固件解包#文件提取#签名扫描#熵分析#可执行代码扫描#反汇编指令识别#暴力识别压缩数据流#命令参数详解

    • burpsuite使用简介

      2019-01-16

      #burpsuite#抓包#爆破#刷票#逻辑漏洞

    • burpsuite pro v2.0beta破解版激活

      2019-01-14

      #burpsuite#burpsuite pro-v2.0破解版#破解版安装激活

    • winhex使用简介

      2019-01-07

      #隐写#winhex#ctf misc#十六进制编辑#修改软件

    • IOT安全学习总结

      2019-01-02

      #物联网安全#智能硬件#固件安全

    • 凯文·米特尼克自传《欺骗的艺术》读后感

      2018-12-06

      #社会工程学#凯文·米特尼克#欺骗的艺术

    • 数字取证学习和练习

      2018-10-16

      #隐写#ctf#数字取证#密码#misc

    • 学习恶意软件分析应该掌握哪些语言

      2018-09-18

      #恶意软件分析#编程#教程

    • hackinglab练习WP

      2018-08-23

      #ctf#write up#加解密#注入#脚本#文件上传

    • 常见一句话木马大全

      2018-08-22

      #php#asp#aspx#jsp#一句话马

    • 墨者学院在线靶场writeup

      2018-08-16

      #burpsuite#write up#注入#脚本#墨者学院#在线靶场#web安全#代码审计#取证分析#webshell#上传漏洞#绕过#木马

    • Git使用笔记

      2018-08-10

      #git

    • docker笔记

      2018-08-06

      #docker#linux#容器#镜像#Dockerfile

    • python简单介绍

      2018-07-16

      #python#安装#基础语法

    • 安恒信息网络空间安全学院X平台
    • CTFtools
    • HACKADAY.IO
    • 物联网安全实验室
    • 渗透师导航
    • freebuf
    • 看雪安全论坛
    • 吾爱破解
    • SecWiki
    • 菜鸟教程
    • 红日安全
    • CoderSec
    • 安全脉搏
    生活就像一部电影
    你以为你活在外面
    实际你就在里面
    扮演什么角色全由自己主宰
    *******
    Major is IOT
    Doing miscellaneous work in a well-known safety company in China
    Люблю безопасность интернета вещей
    *******