二维码
文文衫

扫一扫关注

当前位置: 首页 » 新闻资讯 » 热点资讯 » 正文

人工智能直接从学习中的大脑读数重建“高质量”视频

放大字体  缩小字体 发布日期:2025-07-17 19:31:53    来源:本站    作者:admin    浏览次数:92    评论:0
导读

    一项新的研究报告称,研究人员利用生成式人工智能从大脑活动中重建了“高质量”视频。  来自新加坡国立大学和香港中文

  

  一项新的研究报告称,研究人员利用生成式人工智能从大脑活动中重建了“高质量”视频。

  来自新加坡国立大学和香港中文大学的研究人员qingjixin, Zijiao Chen和Juan Helen Zhou使用功能磁共振成像数据和文本到图像的人工智能模型Stable Diffusion创建了一个名为MinD-Video的模型,该模型可以从大脑读数中生成视频。他们描述这项工作的论文上周发布在arXiv预印本服务器上。

  他们在论文相应网站上的演示显示,向受试者展示的视频与基于他们的大脑活动创建的人工智能生成的视频之间存在平行关系。这两个视频之间的差异很小,而且在大多数情况下,包含相似的主题和调色板。

  研究人员将MinD-Video定义为“两个模块的管道,旨在弥合图像和视频大脑解码之间的鸿沟。”为了训练该系统,研究人员使用了一个公开可用的数据集,其中包含观看视频的测试对象的视频和功能磁共振成像大脑读数。“两模块管道”包括一个训练有素的功能磁共振成像编码器和一个微调版本的稳定扩散,这是一个广泛使用的图像生成人工智能模型。

  研究人员发布的视频展示了马在田野里的原始视频,然后是重建的马的色彩更鲜艳的视频。在另一段视频中,一辆汽车驶过一片树林,重建后的视频以第一人称视角展示了一个人沿着蜿蜒的道路行驶。研究人员发现,按照动作和场景动态的定义,重建的视频是“高质量的”。他们还报告说,这些视频的准确率达到了85%,比以前的方法有了进步。

  作者写道:“我们相信,随着大型模型的发展,从神经科学到脑机接口,这一领域有很好的应用前景。”

  具体来说,他们说这些结果阐明了三个主要发现。一个是视觉皮层的主导地位,这表明大脑的这一部分是视觉感知的主要组成部分。另一个原因是fMRI编码器以分层方式工作,从结构信息开始,然后转向更深层的抽象和视觉特征。最后,作者发现,fMRI编码器在每个学习阶段都在进化,随着训练的继续,它显示出接受更细微信息的能力。

  这项研究代表了使用人工智能读心术领域的又一进步。此前,大阪大学的研究人员发现,他们可以利用功能磁共振成像数据和稳定扩散技术重建大脑活动的高分辨率图像。

  本研究中增强的稳定扩散模型使可视化更加准确。“我们的稳定扩散模型比其他生成模型(如gan)的关键优势之一在于它能够产生更高质量的视频。它利用fMRI编码器学习到的表征,并利用其独特的扩散过程来生成视频,这些视频不仅质量上乘,而且与原始的神经活动更吻合。”

 
(文/admin)
打赏
免责声明
• 
部分文章来源于网络,我们均标明出处,如果您不希望我们展现您的文章,请与我们联系,我们会尽快处理。
0相关评论
 

(c)2023-2023 www.whsdu.com All Rights Reserved

赣ICP备16007947号-10