由声音触发的 AI 视觉与音乐策展工具
我一直觉得声音大有所为,但还不清楚能做到什么程度。再加上我对自己的审美有莫名强大的自信,我想把声音和摄影、音乐结合起来做点好玩的东西,来验证自己的「自信」。目前的 AI 工具对声音的处理——作为日常工作涉及音频后期的我,还没有一款能达到我的交付要求。
探索过程中尝试了 Voice Paint,感受到 Replicate 生图的局限性:如何设计 prompt 避免隐性性别偏见,如何调整想要的风格……我试过用 Unsplash 真实摄影替代生成图,但违背了我的审美和初衷,又否决了。那怎样才能让音乐推荐和声音中的情绪匹配呢?又是 prompt 设计?还有呢?
MVP 有了,但质量见不得人。继续迭代中……🙂