AI导读:

字节跳动Seed团队发布视觉-语言多模态大模型Seed1.5-VL,具备卓越的多模态理解和推理能力,标志着AI技术的新飞跃。该模型在多个评测基准中取得SOTA表现,将进一步推动AI应用深入落地,建议关注AI主题投资机会。

今日,字节跳动Seed团队发布视觉-语言多模态大模型Seed1.5-VL,向更优智能体迈进,探索AI新边界

据介绍,Seed1.5-VL在超过3Ttokens的多模态数据上进行预训练,具备卓越的通用多模态理解和推理能力,且推理成本大幅下降,标志着AI技术的新飞跃。

在多模态大模型领域,谷歌最新推出的大模型Gemini 2.5 Pro表现抢眼,支持图像、视频、音频与代码的统一理解,并在多个基准测试中领先。然而,字节团队指出,尽管Seed1.5-VL的激活参数仅有20B,但其性能可与Gemini 2.5 Pro相媲美,在60个公开评测基准中的38个上取得SOTA(最新最优性能)表现,特别是在视觉推理和GUI智能体任务中。

1、视觉能力卓越

Seed 1.5-VL在视觉推理、图像问答、图表理解与问答、视觉定位/计数、视频理解、GUI智能体等任务中均展现出色能力。其中,在以Agent(智能体)为中心的任务中,Seed 1.5-VL在7个GUI智能体任务中的3个取得了SOTA成绩,彰显了其在AI领域的创新实力。

2、交互性显著增强

Seed 1.5-VL的精简架构设计大幅降低了推理成本和计算需求,使其更适合交互式应用。该模型增强了GUI(图形用户界面)定位性能,可在PC端、手机端等不同环境中完成复杂交互任务,如收集处理信息、在开放游戏中推理和行动等,进一步拓宽了AI技术的应用场景。

字节团队表示,Seed 1.5-VL在视觉理解和推理能力上取得了重要进展,向VLM(视觉语言模型)的通用性能力迈进了一步。然而,仍存在局限性,如在细粒度视觉感知和高层次推理任务中面临挑战。目前,Seed 1.5-VL已在火山引擎上开放API,供用户体验。

多模态技术使机器学习模型能够更全面地理解和表达复杂的真实世界场景,成为AI领域的新热点。近期,国内大模型厂商纷纷竞逐多模态,推出了一系列创新成果。如谷歌DeepMind团队发布多模态大语言模型Gemini 2.5 Pro,OpenAI发布o系列多模态推理大模型o3与o4-mini等。

在应用方面,多款大厂的AI应用实现了多模态功能更新,如文小言升级语音大模型、图片问答能力;腾讯元宝上线10张图片同时处理的功能等。这些创新应用进一步推动了AI技术的普及和发展。

平安证券和开源证券均发布研报称,国产模型在多模态、推理能力上持续突破,多款达到全球顶尖水平。大模型厂商的持续发力将推动AI应用深入落地,拉动推理算力需求。建议继续布局AI领域,关注AI技术在企业端的应用进展以及算力需求的增长趋势。

(文章来源:科创板日报)