AI导读:

2024年底以来,大模型迭代放缓引发讨论。GDC大会上,上海人工智能实验室科学家表示,大模型面临成本、效率等挑战,DeepSeek通过体系化创新带来效率提升与成本降低。业界对未来相对乐观,期待多模态智能涌现和AI助力科学发现。

  2024年年底以来,围绕大模型有非常多讨论,其中一个声音是,技术上Scalling law(尺度定律)面临“撞墙”,大模型迭代放缓。另一方面,大模型在落地应用上也面临诸多挑战,成为GDC(全球开发者先锋大会)的讨论焦点。

  “行业非常关注产业落地,但和很多企业交流时,大家普遍认为大模型适合做演示,在真正落地时面临成本、效率、可靠性、稳定性和安全性等多重挑战。”上海人工智能实验室主任助理、领军科学家乔宇在大会上表示。

  乔宇认为,这些讨论预示着大模型虽然已取得一定成果,但仍面临诸多难题。他判断,从2025年开始,大模型进入新阶段时,破解这些瓶颈的关键在于创新和应用,Deepseek在这方面带来了一些启发。

  DeepSeek致力于体系化创新,乔宇提到,“DeepSeek不仅技术系统出色,而且将模型架构、训练方式和框架进行高速并行,实现体系化优化,带来效率大幅提升与成本显著降低。语言大模型V3的训练成本相当于Llama3的1/10。”

  在此基础上,乔宇补充表示,在大模型产业链上,DeepSeek所做的只是中间模型和系统,“如果我们能将芯片、互联、框架、数据、模型、评测、应用等方面做更好的体系创新,将带来更大空间,一方面增强模型能力,一方面提高效率。”

  在接受采访时,上海人工智能实验室青年科学家何聪辉认为,DeepSeek一定程度上打破了大模型当前的一些瓶颈,“它降低了训练成本,吸引更多研究者参与,同时引入强化学习,促进科学探索,其强大的推理模型也是科学发现的良好起点。”

  此前,数据语料的缺乏被认为是Scalling law“撞墙”、迭代放缓的核心原因。一位从业者表示,“互联网上的人类语料已基本用尽,模型变大但输入未增,无法学习新知识。”

  何聪辉长期研究大模型数据语料,他认为,“现在说的数据用完,更多是指已知公开数据模型已见过,但并未充分利用,质量还有提升空间。”

  何聪辉表示,质量提升能提高数据效率,减少模型所需数据,进而降低计算成本,吸引更多人优化。

  在另一场论坛上,MiniMax副总裁刘华提及大模型“撞墙”话题,他认为大模型仍处于快速发展阶段,2024年底Open AI推出o1,意味着推理阶段大模型仍在遵循尺度定律。随着DeepSeek 1月开源,大家更熟悉强化学习。

  “未来两到三年,类似GPT3.5到GPT4的技术迭代将再次发生,技术上限远未见。”刘华预计。

  业界对未来相对乐观。乔宇认为,2025年值得关注的是多模态智能涌现和AI助力科学发现等。

  过去一两年,多模态在语言上取得突破后,行业对图像、视频、音频等多模态引入期待高,但目前多模态仅在对齐理解上有进展,真正像语言一样的涌现能力有限。乔宇认为,2025年这方面或有值得期待的进展。

  其次,在“AI4S”相关科学智能方面,是未来人工智能的高价值领域,应更多助力人类知识发现。

  “AlphaFold虽取得单点成功,但人工智能潜力远不止于此,应实现从科学假设提出到实验设计、自动化完成及科学知识发现的全流程。”乔宇期待2025年AI能在重要科学问题上发挥作用。

(文章来源:第一财经