Gate 最新消息：最新的區塊鏈web3行業資訊

06:18

Kimi发布全新通用音频基础模型Kimi-Audio

金十数据4月26日讯，今日，Kimi发布新的开源项目——全新通用音频基础模型 Kimi-Audio。据介绍，该模型支持语音识别、音频理解、音频转文本、语音对话等多种任务。

03:22

阿里通义开源音频语言模型Qwen2-Audio，相关论文入选顶会ACL 2024

金十数据8月13日讯，阿里通义大模型继续开源，Qwen2系列开源家族新增音频语言模型Qwen2-Audio。Qwen2-Audio可以不需文本输入，直接进行语音问答，理解并分析用户输入的音频信号，包括人声、自然音、音乐等。该模型在多个权威测评中都显著超越先前的最佳模型。通义团队还同步推出了一套全新的音频理解模型测评基准，相关论文已入选本周正在举办的国际顶会ACL2024。

AUDIO-5.75%

03:40

据品玩报道，Arxiv 页面显示，阿里巴巴近日发布了一款名为 Qwen-Audio 的音频语言模型。该模型旨在通过扩大音频语言预训练范围，涵盖超过 30 个任务和各种音频类型，如人类语音、自然声音、音乐和歌曲，以实现通用音频理解能力。研究显示，Qwen-Audio 在多样基准任务上实现了显著的性能，无需进行任务特定微调。

AUDIO-5.75%

05:16

巴比特讯，10 月 24 日，《时代》杂志发布“2023 年最佳发明”榜单，囊括了 200 项改变我们生活方式的创新。其中 AI 领域共 14 项入选，包括 Adobe 旗下 Photoshop 的 Generative Expand 和 Generative Fill、OpenAI 的 GPT-4 及 Dall-E 3、Runway Gen-2、Meta SeamlessM4T、Stable Audio 等。

13:49

据 TechCrunch 报道，9 月 13 日，Stability AI 宣布推出人工智能音乐生成器 Stable Audio。Stable 声称这是首款能够通过一种名为潜扩散的技术，为商业用途创建“高品质”44.1 kHz 音乐的工具。通过对音频元数据以及音频文件的时长和开始时间进行训练，Stability 公司表示，与之前发布的生成式音乐工具相比，Audio Diffusion 的底层模型大约有 12 亿个参数，可以对合成音频的内容和时长进行更好的控制。一年前，Stability AI 悄然发布 Dance Diffusion，但随后 Stability 公司资助创建模型的研究机构 Harmonai 停止了对 Dance Diffusion 的更新。如今推出的 Stable Audio 并不是由 Harmonai 单独开发的。Stability 的音频团队于四月份正式成立，他们受 Dance Diffusion 的启发创建了一个新模型，作为 Stable Audio 的基础，然后由 Harmonai 对其进行训练。目前，Stable Audio 只能通过网络应用程序使用。Stability 也没有宣布以开源方式发布 Stable Audio 背后模型的计划。

19:36

Kim Asendorf：使 NFT 艺术旨在催眠的 Metallica 视频总监 Kim Asendorf 是一位数字表现主义者和互联网艺术原住民，他透露了他最新的 NFT 作品“Colors of Noise”。由 Peggy Schoenegge 为 Feral File 平台策划，该系列包含 50 件独特的艺术品，每件售价 0.25 ETH。 Asendorf 在他的职业生涯中第一次将视觉和音频艺术结合起来，使用 Web Audio API 生成白噪声并创建动画。

Kimi发布全新通用音频基础模型Kimi-Audio

阿里通义开源音频语言模型Qwen2-Audio，相关论文入选顶会ACL 2024

熱點追蹤

幣圈日曆