AI导读:

全球开发者先锋大会聚焦AI开源与语料竞争,DeepSeek等开源大模型引领潮流,上海积极布局开源工作,推动AI产业发展,语料成为关键竞争环节。

22日8时,上海徐汇滨江的西岸大剧院不远处,两三个拖着行李箱的行人在询问西岸大剧院怎么走。这里即将举办全球开发者先锋大会(GDC)的开幕式,而在不远处的穹顶艺术中心和西岸艺术中心A馆、B馆,则是本次大会的另外三个场馆,展示来自各人工智能(AI)企业的最新技术和产品。

这一源于世界人工智能大会的开发者“派对”,到今年已是第三届。上届GDC,仅线下参会的开发者就多达3.56万。今年GDC会期为2月21日至23日,前来赴约的海内外开发者社区从首届的20家增至逾百家。

“开发者是人工智能技术进步和产业发展的重要推动力量。在广大开发者的推动下,人工智能飞速发展,尤其是近期开源大模型技术和产品加快突破,为我国人工智能产业发展带来新机遇。”工业和信息化部副部长熊继军说。

开源引领潮流

Deepseek的出现引发了业内对大模型“开源”的更多探讨,也成为今年大会的热门话题。

在22日举行的2025GDC开幕式上,香港科技大学校董会主席、美国国家工程院外籍院士沈向洋表示,DeepSeek做得非常好,一个重要影响就是开源。他认为,中国已从受益者变为开源社区的贡献者。“大模型时代,开源虽不如以往那么多、那么快,但我相信会越做越好。中国的团队、上海的团队一定会引领开源潮流。”

Linux基金会金融科技开源基金会前任全球董事安德鲁·艾肯(Andrew Aitken)也认为,开源透明对AI发展至关重要。开源将提升社区凝聚力,降低成本,提高AI技术使用率,并提升产业信任度。未来,AI企业需在盈利性和商业价值上找到新平衡点。

2月18日,阶跃星辰开源了两款多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。阶跃星辰副总裁李璟认为,相关开源大模型发布后,云厂商、芯片厂商和生态社区等都自发推进适配。在这种开源社区力量的感召下,更多生态企业愿拥抱开源生态。

阶跃星辰创始人、CEO姜大昕表示,开源以来,公司产品受到广泛关注和好评,全球创作者使用其模型创作了大量视频。同时,越来越多伙伴加入阶跃星辰的开源生态,包括技术社区、创作社区、云厂商和芯片厂商等。3月,阶跃星辰还将继续开源图生视频产品。

阶跃星辰品牌公关负责人袁珊珊对第一财经表示,最近两天,许多产业合作伙伴开始接入其模型,如内容创作社区、智能终端,以及上游的云厂商和算力芯片层。

今年1月,拥有全球第一大视频生成网站“海螺AI”的MiniMax发布并开源了新一代01系列人工智能模型。该系列模型实现突破性创新,以“线性注意力”机制突破Transformer大模型架构的记忆瓶颈。

MiniMax副总裁刘华介绍,作为一家中国的大模型公司,他们将持续保持开源,期待更多开发者参与打造非Transformer架构的底层生态。

上海也在积极布局开源。上海市经济和信息化委员会副主任张宏韬近日表示,上海将全力推进开源工作,通过盘活开源组织、社区、项目和人才等资源,建设人工智能“上海高地”。

语料为何重要

人工智能大模型取决于算力、算法和语料三大要素。随着AI技术的深入发展和大规模应用,模型后期训练和推理需求可能很快超过预训练算力需求,需提前做好算力保障。

在AI应用中,高质量语料数据集决定模型能力上限。高质量训练数据能有效减少模型推理过程中的错误率,提高模型在实际应用中的创作和生成质量。

去年3月,全国首家人工智能语料公司“库帕思”在上海成立。库帕思CEO黄海清介绍,目前围绕1个综合语料库和X个行业语料库,库帕思成品语料总容量已达260T。

上海库帕思科技有限公司生态总监路长鹿对第一财经表示,库帕思将利用自身平台身份,做好行业连接。

“大数据开源使大家都有了工具。虽然我们现在有了内燃机,但还需要柴油才能跑起来,尤其是高质量语料,相当于提炼后的汽柴油产品。有了整体能源来源,推进大模型普惠性应用,或使普适性应用到各行各业,才能更加流畅,激发各细分场景领域下的模型化整体应用。”

去年,上海近二十家企业共同发布了团体标准《语料库建设导则》,计划建立一批通用和专用语料库,打造多层次语料体系,支撑基础大模型研发和垂直应用。

上海市经信委人工智能发展处处长潘焱日前介绍,在AI应用中,语料已成为下一步关注的重要环节。高质量训练数据能提高模型训练效率,降低推理过程中的错误率,是上海布局的关键。

创新生态构建

22日大会开幕式上,全球科学智能开发者社区、模速空间载体升级计划、上海市“模塑申城”开源创新生态建设行动正式启动。

根据《关于人工智能“模塑申城”的实施方案》,到2025年底,上海将构筑涵盖算力、语料、模型、应用等层面的世界级人工智能产业生态。

上海市经信委主任张英透露,2024年上海人工智能产业规模突破4500亿元,同比增长超7.8%,已提前完成“十四五”目标。

21日,2025GDC期间,国内首个“算力生态超市”——模速空间算力生态平台发布。上海大模型生态发展有限公司董事长杨晶晶表示,该平台将为入驻企业提供一站式算力服务。

上海市副市长陈杰在开幕式上说,上海将继续发挥超大城市综合优势,加快建设更具国际影响力的人工智能“上海高地”。完善开源开放生态系统,夯实“语料开放+模型开源”服务体系,壮大开源社区力量,推动资源共享与开放,构建创新环境。

(文章来源:第一财经)