新工具让生成式人工智能无法学习歌曲
贝多芬去世近 200 年后,一个由音乐家和计算机科学家组成的团队创造了一种生成人工智能 (AI),它如此令人信服地完成了他的《第十交响曲》,以至于音乐学者无法区分音乐是来自人工智能还是作曲家的手写笔记。
在这些人工智能工具能够生成新类型的数据(包括歌曲)之前,它们需要使用大量相同类型的数据进行训练。创建生成式人工智能模型的公司通常会从互联网上收集这些训练数据,通常是从艺术家自己提供艺术作品的网站上收集。
“网络上的优质艺术作品大多都有版权,但这些公司可以很容易地获得版权版本,”Min H. Kao 电气工程与计算机科学系(EECS)专门研究网络安全和机器学习的助理教授刘健说。
“也许他们像普通用户一样,为歌曲支付 5 美元,并且拥有完整版本。但这次购买只给予他们个人许可;他们无权将歌曲用于商业化。”
公司通常会忽略这一限制,用受版权保护的作品训练他们的人工智能模型。毫无戒心的用户为生成工具付费后,可能会生成听起来与受版权保护的人造原创歌曲极为相似的新歌曲。
今年夏天,田纳西州成为美国第一个通过法律保护音乐艺术家的声音免遭未经授权的生成式人工智能使用的州。刘先生对这一第一步表示赞赏,但他认为有必要走得更远——不仅要保护人声曲目,还要保护整首歌曲。
刘博士与他的博士生 Syed Irfan Ali Meerza 和利哈伊大学的 Lichao Sun 合作开发了 HarmonyCloak,这是一个新程序,它使音乐文件基本上无法被生成式人工智能模型学习,而不会改变它们在人类听众听来的声音。他们将在2025 年 5 月举行的第 46 届 IEEE 安全与隐私研讨会 (S&P)上展示他们的研究成果。
他说道:“我们的研究不仅解决了创意社区的迫切担忧,而且还为维护人工智能时代艺术表达的完整性提出了切实可行的解决方案。”
让人工智能产生似曾相识的感觉
Liu、Meerza 和 Sun 致力于保护音乐,同时又不损害听众的体验。他们决定找到一种方法,利用自己的核心学习系统来欺骗生成式人工智能。
与人类一样,生成式人工智能模型可以判断它们遇到的数据是新信息还是与现有知识相匹配的信息。生成式人工智能经过编程,可以通过从每条新数据中尽可能多地学习来缩小知识差距。
“我们的想法是尽量减少知识差距,这样模型就会误将新歌当成它已经学过的东西,”刘解释说。“这样一来,即使人工智能公司仍然可以将你的音乐输入到他们的模型中,人工智能也会‘认为’没有什么可学的。”
刘的团队还必须应对音乐的动态特性。歌曲通常将多个乐器声道与人声混合,每个声道都有自己的频谱,并且声道可以从前台淡入后台,并随着时间的推移改变节奏。
幸运的是,就像有办法欺骗人工智能模型一样,也有办法欺骗人耳。
无法检测的扰动
人类对声音的感知取决于许多因素。人类无法听到非常安静的声音(例如一英里外播放的音乐)或特定频率之外的声音(例如狗哨的音调)。还有一些方法可以欺骗耳朵忽略技术上可听见的声音。例如,在较响亮的声音之后立即播放的安静噪音将被忽略,尤其是当音符具有相似频率时。
刘的团队构建了 HarmonyCloak 来引入新的音符或扰动,这些音符或扰动可以欺骗人工智能模型,但被歌曲的原始音符掩盖得足够多,从而逃避人类的检测。
“我们的系统保留了音乐的质量,因为我们只添加了难以察觉的噪音,”刘说。“我们希望人类无法分辨出这种被干扰的音乐和原版音乐之间的区别。”
为了测试 HarmonyCloak 的有效性,刘、Meerza 和孙招募了 31 名人类志愿者以及三个最先进的音乐生成 AI 模型。
人类志愿者对原版歌曲和无法学习的歌曲的愉悦度给出了同样高的评分。(可以在团队的网站上进行比较)。与此同时,随着训练库中越来越多的歌曲受到 HarmonyCloak 的保护,人工智能模型的输出迅速恶化,从人类和统计指标中获得的分数都远远低于预期。
“这些发现强调了不可学音乐对人工智能生成音乐的质量和感知的巨大影响,”刘说。“从音乐作曲家的角度来看,这是一个完美的解决方案;人工智能模型无法根据他们的作品进行训练,但他们仍然可以将他们的音乐提供给公众。”