Sensu

由声音触发的 AI 视觉与音乐策展工具

Building

The Story

为什么做

我一直觉得声音大有所为，但还不清楚能做到什么程度。再加上我对自己的审美有莫名强大的自信，我想把声音和摄影、音乐结合起来做点好玩的东西，来验证自己的「自信」。目前的 AI 工具对声音的处理——作为日常工作涉及音频后期的我，还没有一款能达到我的交付要求。

遇到的挑战

探索过程中尝试了 Voice Paint，感受到 Replicate 生图的局限性：如何设计 prompt 避免隐性性别偏见，如何调整想要的风格……我试过用 Unsplash 真实摄影替代生成图，但违背了我的审美和初衷，又否决了。那怎样才能让音乐推荐和声音中的情绪匹配呢？又是 prompt 设计？还有呢？

未来计划

MVP 有了，但质量见不得人。继续迭代中……🙂

功能特性

语音识别
AI 视觉生成策展墙
音乐匹配推荐
语音日志

技术栈

PythonReplicate APIGemini APIVoice Processing