易语言资源网 - 做最全的易语言资源下载社区
精易论坛授权登录

直播弹幕爬虫   [复制链接]

    2022-11-03 09:14:38
    2022开源大赛(第七届)
    易语言资源网
    4827 次浏览
    来源链接

前言


弹幕爬虫的做法有很多种,例如、无头浏览器Xpath爬取,WSS拦截、WSS协议,作者今天开源的是JS注入的方式。


弹幕爬虫原理图


使用方法


相信很多小伙伴看了原理图也大概知道了程序的运作方式,下面作者教你们把程序跑起来

1. 首先把下载下来的源码(DouyinLiveSpider.sln)打开,作者的开发程序是Visual Studio 2019,最好小伙伴们也下载同样的版本,不然会出现奇怪的问题(下图是项目完整图)

2. 打开项目后按F5等待程序启动(下图是程序主界面),界面做的很简陋作者一直秉承能用就行的理念,希望小伙伴们能自己改一下

3. 程序启动后请确保程序下面的log输入显示“WebSocketServer 启动成功 ws://127.0.0.1:9898”,如果提示启动失败,请检查9898端口号是否被占用

4. 接下来我们进入需要爬弹幕的直播间,如上面原理图说的,我们是通过注入js然后转发到我们程序来的,所以我们需要在程序内打开直播间才能控制js的注入,由于winform内置的webbrowser是IE内核,所以作者在程序内使用了ChromiumWebBrowser换成了Chrome内核

5. 等到打开的窗口完全把直播间加载出来后,我们程序就开始自动采集工作了,小伙伴们要注意如果你把直播间窗口关闭后,采集就会停止掉

6. 那么如何把采集到的数据转发到我们需要用到的地方呢?,其实很简单,也是通过WebSocket,作者为大家提供了web上接入我们程序的Demo(如下图)

7. 注意事项,当ws连接上程序之后并不会立刻推送数据,需要发送“send”这段文字到程序上后才会推送(Js代码如下)

8. 作者展示的并不是完整爬到的数据,作者只把部分数据显示了出来,里面还有很多有用的数据,例如:“MsgId”、“粉丝牌”、“用户等级”、等..,小伙伴拿到数据后可以自己研究


开发环境


  • 开发工具:Visual Studio 2019
  • 开发系统:Windows 10 专业版
  • 用到框架:Fleck、Newtonsoft.Json、CefSharp

结束

因为是通过JS注入,所以如果改了JS名字或JS内容需要重新修改新的JS注入



点我下载 (已有 226 次下载)

[错误报告]   上一篇:哔哩哔哩解析     下一篇:yolo标注训练工具...