一个为 AI 编码助手设计的原生 Markdown 工作流。从单一主题到工业级 MP4 成片一次成型,实现科普视听构建的全自动化。
Audio-Driven Sync
Level 2 (微秒词级)
Agent Protocol
0% Human Input
“没有前台 GUI,最极客的控制面是一份 Markdown 协议。”
这是系统顶层的 5 阶数据流。它摒弃了复杂的 Web 控制台,将所有的参数调度封存于纯净的 .md 文本之中。从单一的自然语言输入,历经大纲拆解、延时闭环、逆向打点、初混乃至精密的二次注入倒灌,最终硬核地压成一张零误差的工业级成片。
“抛弃基于帧率盲猜,让真实声波决定画面。”
突破了硬编码 wait(N) 的传统时序限制。流水线采用逆向时序控制:优先产出 TTS 语音,通过 FFprobe 获取真实长度填补画面间隙;并结合 Whisper 级联抽取出微秒级词汇时间戳,将打点数据倒灌入引擎控制器(play_at),实现零毫秒误差的强迫症级同步。
“拥抱大模型幻觉,用工程沙盒完成自我纠错。”
如何保证生成全自动化?依靠异常接管。针对 Python 渲染时极易发生的各类排版报错,赋予 Agent 系统级编译权限。一旦引发异常,沙盒将即刻冻结并抓取完整堆栈(Traceback),包装上下文后强制模型回炉重造,死循环直至输出 SYNTAX OK。