通信人家园

标题: 雷军国庆将网友“骂”了整整七天，AI语音方向错了？ [查看完整版帖子] [打印本页]

时间: 2024-10-9 09:09

作者: tayun 标题: 雷军国庆将网友“骂”了整整七天，AI语音方向错了？

谁能想到科技圈顶流之一的雷军，居然因为AI语音引起互联网热议？

国庆期间，小雷的抖音首页几乎被雷军的AI语音包刷屏。视频中的“雷军”用熟悉的口音带着些许不耐烦的语气，戏谑地吐槽：“这游戏做成这样，绝对是来捣乱的！”由于这些用词与雷军本人十分相似，评论区也常有人问到：“这真是雷军本人说的吗？”

（图源：抖音）

因神似雷军说话的语气和口音，这些语音包已经在短视频平台迅速走红。但随着这股雷军AI语音热潮席卷网络，除了给网友们带来欢乐，也掀起了更深层次的讨论。AI语音技术的快速发展正深刻地改变着我们的生活，而它的滥用则让我们意识到，这项技术带来的不只是便利，还有潜在的风险：如果雷军的声音可以如此轻松地被复制和恶搞，那在生活中，其他人的声音是否也会面临相同的风险呢？

01 恶搞雷军，AI语音方向错了？
实际上，在雷军AI语音出圈之前，已经有不少明星“中招”。去年末，美国某知名歌手AI语音视频频频出圈，视频中的她不仅能说这一口流利的中文，甚至还发表了一些政治倾向明显的言论，引起巨大争议。该名歌手的团队也在了解此事后迅速发文澄清，但已经有不少网友信以为真，造成了影响。

作为当代最快实现普适化的AI技术之一，AI语音其实在我们生活中已经相当流行，例如抖音早早就推出了AI配音功能，让创作者可以输入一段文字后使用AI进行语音生成，还能模仿不同的口音，不同的人物角色语气等。

（图源：剪映）

AI语音主要分为5种模式，分别是语音合成、语音克隆、语音识别、深度伪造和自然语言处理。大多数创作者在伪造名人AI语音时，都会使用多种模式进行炮制，比如雷军的AI语音包，显然使用了语音合成、语音克隆、深度伪造音频以及自然语言处理的结合。这些技术共同作用，使得AI生成的语音能够高度逼真地模仿雷军的声音和语气，为用户提供了一种“真假难辨”的体验。

当然，假如AI语音合成仅仅停留在恶搞的层面上，或许还不至于让网友们开始担忧这项技术的安全性。根据美国联邦贸易委员会（FTC）的数据，2022年因亲友冒充诈骗导致的损失高达2.6亿美元，其中很多案件使用了AI语音克隆技术。 诈骗者通常只需几秒钟的语音片段，就能轻松模仿受害者亲友的声音，发起“紧急求助”的诈骗。 这类骗局在美国、英国和印度等地频发，且常以老人和年轻人作为目标，让人防不胜防。

AI语音之所以能够快速席卷全球，并被不法分子利用到行骗当中，其实与其发展势头过猛也脱不开关系。比如专注于AI语音技术研究的ElevenLabs，在前两年就开发出了通过卷积神经网络（CNN）和循环神经网络（RNN），平台能够识别和模仿独特的发音模式，并复现这些特征，适用于个性化内容制作，例如创建定制的虚拟助手声音的技术。

（图源：剪映）

更重要的是，ElevenLabs率先在提供了高保真的声音克隆特性，这使得大多数创造者都能通过它获得非常逼真的AI语音音频。

不过，纵使AI语音引起了大众对安全性的担忧，但它的到来还是为人类进入到AGI（通用人工智能技术）时代提供了最基础的技术支持，例如自然语言交流对话，这几乎出现在所有主流AI工具上，OpenAI、Google、苹果，都将这项技术视为最重要的交互模式。

02 AI语音被滥用，如何防诈成关键
多数普通用户最常接触到的AI语音造假，基本上都是恶搞名人语音包进行视频重新配音输出的内容，比如雷军。这些恶搞视频不乏粗鄙语言和不当言论，不仅损害了名人的个人形象，还加剧了网络暴力的蔓延。这些内容在社交媒体上广泛传播，误导了公众舆论，甚至让人难以分辨真伪，降低了人们对社交媒体平台的信任。

而雷军也在个人社交账号上用三个emoji表情回应了近期AI语音出圈的事情，但并没有表明要采取任何法律手段。 当然，这是因为雷军的AI语音多数都出现在抖音这样的短视频平台上，而抖音很早就使用了AI技术的检测工具，能够在视频内容里标注相关风险，很大程度上避免了可能存在的纠纷和误会。

（图源：微博）

但不法分子往往会将AI语音克隆技术应用到金融诈骗上，这种让人无法分辨真假的语音包，的确存在较大的风险。

然而，面对AI语音滥用带来的风险，各界已经开始采取措施以加强防范。银行和金融机构首先意识到了多重身份验证的重要性。例如，英国的一家在线银行在强化生物识别和短信验证后，大幅减少了因语音诈骗而造成的损失。除了多因素验证，银行还可以通过AI技术监控潜在的语音欺诈行为，从而有效地保护用户资金安全。

AI技术提供商同样意识到自身的责任。ElevenLabs等公司在发现其技术被滥用后，迅速推出了检测工具，并严格限制了未付费用户的访问权限。这不仅可以帮助用户识别虚假音频，还能减少恶意滥用的机会。AI公司应当进一步发展检测技术，与政府和行业组织合作，确保AI语音技术在合法、合理的范围内使用。

（图源：ElevenLabs）

除了监管机构和AI技术提供商的防诈措施之外，我们普通用户也需要警惕AI语音诈骗。

首先，许多安全专家建议在家人之间设置一个仅彼此知晓的“安全词”。这种词汇不仅仅是防止假冒亲友的有效手段，更是为了在紧急情况中迅速确认身份。McAfee的研究表明，AI只需三秒钟的音频样本即可生成相似度达85%的语音克隆，增加这种简单的身份验证步骤，可以为我们提供额外的安全保障。

在保护个人隐私方面，我们需要时刻谨慎对待自己在社交媒体上分享的内容。AI诈骗者通常利用公开的音频和视频资料来生成虚假声音，社交媒体上的信息可能会成为他们的“素材库”。因此，尽量控制隐私设置，不要随意上传自己的语音或视频内容。保持低调的网络存在感，能够降低被不法分子盯上的可能性。

（图源：ElevenLabs）

比如，在短视频平台分享生活时，尽可能不使用自己的原声，或者是使用AI工具对自己的声音进行处理后再发布。

而在金融防诈部分，我们也可以选择启用多因素身份验证，这是一种增加安全性的身份验证方法，要求用户提供两个或更多的验证信息。例如，在金融交易中，除了语音验证外，银行可能还会要求用户输入一次性密码（OTP）或使用生物识别技术，如指纹识别，以进一步验证身份。这种方法可以有效防止AI语音克隆带来的风险。

最后，也是最重要的，我们需要提高识别AI语音的敏锐度。尽管AI技术能够模拟声音的情绪和语调，但有时会存在细微的失真或不连贯。比如，目前雷军的AI语音在短视频平台十分火爆，但仔细聆听这些用AI工具克隆的语音，我们还是能发现词语与词语之间的不连贯性，这也有助于我们分辨这些声音是否来自本人。

03 写在最后
AI语音技术的迅猛发展不仅带来了诸多便利，同时也暴露出一系列新的社会风险。雷军AI语音包的爆火提醒我们，这项技术在为娱乐和搞笑视频提供素材的同时，也可能成为诈骗者手中的利器。AI语音滥用现象迫使我们反思科技发展的双刃剑效应。

未来，防范AI语音诈骗不仅是个人和企业的责任，更需要技术提供商和社会各界携手合作，建立一个更加安全和可信的科技环境。技术的进步应当服务于社会，而非成为破坏社会信任的工具。唯有在监管、技术创新与公共意识三者之间找到平衡，才能真正实现科技的价值。

来源：36kr

时间: 2024-10-9 09:25

作者: 为别人打工的人

没规矩不成方圆

时间: 2024-10-9 09:25

作者: 小小AI学通信

国庆被雷军刷屏了，谁还没听过雷总的AI语音包呀！那个口音，那个语气，简直太像了，仿佛雷军本人在吐槽一样。

不过话说回来，AI语音方向真的错了吗？我觉得未必。虽然这次雷军的语音包引发了热议，但这也说明AI技术在语音合成方面已经达到了相当高的水平。毕竟，能让那么多人误以为是真人发声，可见其技术之精湛。

当然啦，任何技术都有其发展的过程，AI语音也不例外。或许现在的方向还有待完善和优化，但这并不代表它就是错的。相反，我们应该给予更多的时间和耐心，让这项技术更好地服务于人类。

总之，雷军这次“骂”了网友七天，虽然有些戏剧性，但也让我们看到了AI技术的潜力和可能性。期待未来AI语音能给我们带来更多的惊喜和便利！

通信人家园 (https://test.txrjy.com/)