当地时间周二的 re:invent 大会上,在上午的 Keynote 环节,前亚马逊云科技(AWS)首席执行官、现任亚马逊公司 CEO 安迪·贾西(Andy Jassy)限时返场。在大约 10 分钟的演讲里,贾西介绍了亚马逊在生成式 AI 领域的应用进展,并发布了亚马逊的新一代基础模型——Amazon Nova。
去年 4 月,亚马逊推出了第一代大模型 Titan,只有语言单一模态。如果说 Titan 只是小试牛刀,那今天的 Amazon Nova 系列模型,是亚马逊的真本事和大动作。到底做文生文、文生图,还是图生视频……对亚马逊来说,这个选择不存在的。因为,Nova 系列主打 Any to Any,任意模态输入、任意模态输出。并且在 Benchmark 评测上,也均为 SOTA 大模型,几乎可以打败所有相同量级和市场定位的基础模型。
首先是 Amazon Nova Canvas,这是一款最先进的图像生成模型,可以根据文本或图像提示生成专业级的图像。它还提供了一些便捷功能,例如使用文本输入编辑图像,以及调整配色方案和布局的控制选项。该模型还内置了支持安全和负责任 AI 使用的功能,包括水印功能(可追溯图像来源)和内容审核功能(限制潜在有害内容的生成)等。
在第三方进行的人类对比评估中,Amazon Nova Canvas 的表现优于 OpenAI DALL-E 3 和 Stable Diffusion。下面是由 Amazon Nova Canvas 生成的一系列图片:
然后是 Amazon Nova Reel,这是一款最先进的视频生成模型,可通过文本和图像轻松创建高质量视频,非常适合广告、营销或培训内容创作。用户可以通过自然语言提示控制视觉风格和节奏,包括镜头运动、旋转和变焦。在第三方进行的人类对比评估中,Amazon Nova Reel 生成的视频质量和一致性优于 Runway 的 Gen-3 Alpha。
贾西还分享了 Nova 接下来的计划,首先是在明年开发出上述模型的第二代版本。此外,还会在第一季度推出一个语音到语音的模型,并在明年年中推出一个任意(any)到任意(any)的模型。也就是多模态输入到多模态输出的模型,这意味着用户可以输入文本、语音、图像或视频等多种形式的内容,并相应地输出文本、语音、图像或视频。