使用听语AI总结-B站大佬程序员小山与Bug分享的skills原理
时间:2026-3-12 11:01 作者:wanzi 分类: AI Coding
关于听语AI
他是一款面向本地部署与私有化使用的转写与内容抽取平台,覆盖视频/音频转写、会议录音处理、结构化内容输出与任务管理。支持本地与云端 ASR 混合使用,适合需要稳定、可控、可扩展的生产场景。
这款开源项目,目前已经完成开发源码版本,后续推出跨平台的打包版本,同时放一个传送门
如何下载b站高清视频
在开始之前,我给大家分享下我自己平时是如何下载高清视频的。
工具站下载
我们可以访问B站视频解析网站(ps:这个也是我自己做的),然后在把b站的视频地址复制上,在粘贴到工具的输入框后点击提交就行了,如果大家需要1080p的,点击右侧二维码,大家用自己的b站app扫码登录就行(ps:不会记录任何用户数据,放心使用)

浏览器插件下载
1、ACG助手 - 提供视频下载消息
这是一个十分强大的专业b站下载插件,功能十分丰富,一般情况在不开通会员下就能满足,放一个传送门


2、万能猫爪
这个工具就不过多介绍了,没用过的朋友还是给你们一个传送门
内容卡片:Cloud Code 中 Skill 的底层实现解析
标题
Cloud Code 中 Skill 的底层实现与 Function Calling 机制解析
摘要
本视频探讨了 Cloud Code 中 Skill 的底层实现原理,通过抓包分析展示了其基于 Function Calling 的工作机制。作者详细讲解了如何通过配置 HTTP 协议抓取请求数据,并逐步拆解了 Skill 的动态描述拼接逻辑。视频还强调了 Token 消耗的重要性及其在对话轮数增加时的指数级增长趋势。(00:00-03:57)
章节
1. 抓包分析 Cloud Code 的请求机制
- 内容:Cloud Code 使用 HTTPS 协议进行双向验证,难以通过中间人抓包。为解决这一问题,作者将网关地址改为 HTTP 协议(如火山支持 HTTP),并通过设置代理端口(8888)启动抓包工具。(00:00-00:44)
- 关键帧:
2. 请求体与 Function Calling 模块解析
- 内容:通过抓包工具捕获请求后,作者分析了请求体中的 JSON 数据,包括系统提示词和 Function Calling 模块的具体功能。模块中包含 task、task output、base、global 等字段,以及一些特定功能如文件编辑、联网搜索等。(00:44-01:26)
- 关键帧:


3. Skill 的动态描述拼接逻辑
-
内容:Skill 是一个特殊的 Function,其描述会根据 skill 文件夹中的头信息动态拼接。例如,当调用 PPT 相关技能时,详细的描述会被二次传递给大模型。(01:26-02:44)
-
4. Token 消耗与对话状态管理
-
内容:即使是简单的“你好”输入,底层也会发送大量数据,消耗大量 Token。随着对话轮数增加,历史聊天记录必须携带,导致 Token 消耗呈指数级增长。(03:10-03:57)
总结与思考
-
总结:
- Cloud Code 中的 Skill 底层实现基于 Function Calling,其描述通过动态拼接生成。(02:44-03:10)
- 抓包分析揭示了请求体的结构和具体功能模块的设计逻辑。(00:44-01:26)
- Token 消耗在对话过程中至关重要,尤其是随着对话轮数增加,历史记录的携带会导致消耗激增。(03:10-03:57)
-
思考:
- 动态拼接的描述机制是否可以进一步优化以减少 Token 消耗?
- 在实际应用中,如何平衡功能丰富性与 Token 成本之间的关系?
附注
所有图像均来自视频关键帧,未对画面细节进行推测或杜撰。



