做算力的浪潮信息为什么还要再卷大模型

Estimated read time 1 min read

 

撰文   | 懂懂   

编辑 | 秦言

来源:懂懂笔记

避免重复造轮子,前提是轮子已经造得很好。

大模型有多卷?

现在国内已经有 180 个以上生成式大模型,科技大厂、互联网大厂纷纷入局,既有百度、浪潮信息、阿里、腾讯等一众巨头,也有专攻 AI 的讯飞、商汤等垂直领域小巨头,以及 ” 日日新 ” 的创业企业。

今天 A 厂商发布大模型,各种参数对比下来堪称最强,第二天 B 厂商发布下来,又刷新了各种记录。最强、最大、强快,有可能只保持一天。这说明什么?基础大模型还有很大的进化空间。

11 月 27 日,算力龙头企业浪潮信息发布了完全开源且可免费商用的源 2.0 基础大模型,包含 1026 亿、518 亿、21 亿不同参数规模,这也是国内首个千亿参数、全面开源的大模型。

作为一家做算力基础设施的公司,为什么如此努力地卷大模型?浪潮信息高级副总裁、AI&HPC 总经理刘军表示:最终用户感受到的大模型能力是其在应用层面能力的表现,这些核心能力的本质,是由基础大模型能力所决定的。在他看来,今天模型基础能力与客户预期之间仍有较大的差距,这也是浪潮信息不断探索的原因所在。

GPT4 不是天花板,百模大战探索 ” 更优解 “

GPT3.5 的发布,算得上是 AI 产业发展的一个重要拐点,很多人将之称为 AI 的 ” 苹果时刻 “。今年 3 月,OpenAI 发布了 GPT4,GPT4 的能力比 GPT3.5 有一个巨大的提升,GPT4 是当前业界最先进的技术大模型。

但是,即便是当前公认最先进的大模型,GPT4 其实也还有很多挑战没有解决。

比如算力短缺,一直是 OpenAI 在其迅速崛起过程中不得不面对的一个棘手问题。当用户海量涌入的时候,OpenAI 已经出现过几次崩溃的情况。为此,OpenAI 采用了不同级别的会员收费,对用户进行分层。并且还一度还采用停止注册的方式来限制用户的使用量,缓解算力压力。

再比如 AI 幻觉。今天的 GPT4 给出的答案并不完全正确,有时候会有明显的事实错误,有时候也会一本正经地胡说八道。这里面也有很多原因,比如数据来源的问题,再比如不同法律体系、不同价值观下的分歧等等。

GPT4 遇到的挑战还有很多,这些都是整个行业正在面临的挑战。今天,看上去大模型这个领域非常卷,但本质上还是处于产业初期。一方面,国产基础大模型的能力和 Open AI 之间存在较大的差距,另一方面即使是最先进的 GPT4,现在的能力还处于初级阶段,很多问题依旧在探索开发。

通用大模型基座作为通用人工智能的核心基础设施,被嵌入到智能助手、机器翻译、自动化客服等场景中,从而实现更加个性化、智能化、自适应的服务和应用。IDC 预测,到 2026 年,全球 AI 计算市场规模将增长到 346.6 亿美元,生成式 AI 计算占比从 22 年 4.2% 增长到 31.7%。

通用大模型是大模型产业的地基,地基的深度和强度决定大厦的高度。大模型和应用之间的关系,如果用上学和工作来比喻:大模型是 12 年小初高阶段,垂直行业大模型是大学分专业学习的阶段,应用则是进入到工作岗位开始为企业、社会创造价值的阶段。

今年掀起百模大战之后,业界有一种观点认为不应该浪费资源重复造轮子。但前提是轮子已经比较成熟,如果今天的轮子还不好用,就值得更多的企业投入进来,探索各种不同的路径来把轮子造好。所以,最近业内正在形成新的共识:在产业初期,适度的泡沫还是必要的。中国大模型的 ” 百花齐放 ” 是利好的,很大程度它可以激活创新,促进产业生态的繁荣发展。

浪潮信息人工智能软件研发总监吴韶华

” 确实在当前大模型百花齐放的态势下,必然大家会有不同的实现路径,也会有理念冲突,这都是特别正常的事情。因为毕竟大家都在探索,都没有出来一条非常有效的路径。” 浪潮信息人工智能软件研发总监吴韶华表示。

浪潮信息为什么也要进来一起卷大模型?浪潮信息左手有做大模型的伙伴,右手有做垂直行业应用的伙伴,可以说既懂底层技术又有上层应用经验。更重要的是作为一家算力基础设施公司,在产业初期,浪潮信息在算力上的探索会给整个产业带来很大的推动力,比如算力资源的高效性、算力集群的可扩展性、算力系统的可持续性,这些都能让算力更充分地释放出来,这对整个产业都有极大的价值。

浪潮信息做大模型主要是两个维度的探索:一是探索路径、方法,比如有什么架构可以节省算力,什么模型可以让数据更精准等等。二是探索边界,今天大模型已经能做很多事,但随着算力、算法、数据的迭代,新的能力也不断被挖掘出来,大模型的上限到底在哪里?

看上去已经很激烈的百模大战,只是生成式 AI 的起点。通用大模型是一项异常复杂的系统工程,需从系统层面达以创新,从算力效率、线性扩展、长效稳定等多个方面进行探索。今天,没有哪个企业有绝对的优势,算力、算法、数据三要素都有很大的进化空间,此外还需要更好的应用来落地大模型的价值。也就是说,大模型还要卷,同时应用也要卷,打通一个能持续跑起来的飞轮生态,百模大战的效果才真正实现了。

基因、智商、情商,打造 ” 三高 ” 大模型

作为最早布局大模型的企业之一,浪潮信息早在 2019 年就推出了中文 AI 巨量模型 ” 源 1.0″,是当时最大参数的大模型。” 源 ” 大模型的数据集和清洗经验和帮助国内不少 AI 团队提升了其大模型的性能表现,比如助力网易伏羲中文预训练大模型 ” 玉言 ” 登顶中文语言理解权威测评基准 CLUE 分类任务榜单,并在多项任务上超过人类水平。过去的两年,源 1.0 大模型的智能力与 To B 领域复杂的服务场景进行深度融合,构建专家级数据中心智能客服大脑,荣获哈佛商业评论鼎革奖。

但是,源 1.0 开放出来之后,在客户的应用场景中遇到了很多具体的问题。所有这些问题,都是浪潮信息升级源 2.0 的发出点。此外,GPT4 是一个封闭的系统,就是一个黑盒子,大家不知道它是怎么做的。那么,中国的大模型也需要更多的创新,才有机会去超越 GPT4。

简单来讲,浪潮信息源 2.0 在数据、算力、算法三个维度向前迈进了一大步。在懂懂看来,数据决定大模型的基因,算力是决定大模型的智商,算法决定大模型的情商,所以这是 ” 更聪明 ” 的大模型的核心三要素,源 2.0 就是一个 ” 三高 ” 大模型。

先说说数据。

” 在有限的算力资源上,训练数据的质量,直接决定了模型的性能,这个性能主要是指模型的智能化水平在任务上的表现。”   吴韶华强调,数据体量很重要,但是数据质量更重要。在源 2.0 中,浪潮信息的思路就是进一步提纯数据,让模型能基于更高水平的数据来训练。

具体而言,源 2.0 通过使用中英文书籍、百科、论文等资料,结合高效的数据清洗流程,为大模型训练提供了高质量的学科专业数据集和逻辑推理数据集。除此之外,为了更高效地获得高质量的代码数据集,浪潮信息提出基于主题词或 Q&A 问答对自动生成编程题目和答案的数据集生成流程,提高了数据集问题的多样性和随机性;同时提出基于单元测试的数据清洗方法,可以更加高效地获取高质量数据集,提高训练效率。

” 我们这套数据构建方法,能够比较有效的解决互联网海量数据清洗问题。我们后续的计划是用我们的模型产生更高质量的数据,然后持续迭代,来提升我们大模型的能力。” 刘军表示。

接下来讲一下算法。

传统 Transformer 结构被业界广泛采用,但是对中文的识别并不是最佳模式。源 2.0 有一个很大的创新,就是把 attention(自注意力)这一层,采用了自研的新型 LFA(Localized Filtering-based Attention)结构,中文名字是局部注意力过滤增强机制。考虑到自然语言输入的局部依赖性,LFA 通过先强化相邻词之间的关联性,然后再计算全局关联性的方法,有效地解决了传统 Transformer 结构中对所有输入的文字一视同仁,不能考虑自然语言相邻词之间的强语义关联的问题,能够更好地处理自然语言的语序排列问题,对于中文语境的关联语义理解更准确、更人性,提升了模型的自然语言表达能力,进而提升了模型精度。

” 我们发现在源 2.0 这个阶段,依然是处于研究方向的初级阶段,后面还有很多的可能性。围绕着这个方向,我们团队也会继续研究下去,来尝试进一步的得到更好的模型结构。” 吴韶华表示。

最后再来说说计算。

全球算力紧缺是一个短期内很难缓解的痛点,所以计算的调优,是整个产业都迫切需要突破的瓶颈,而这也恰好正是浪潮信息的优势所在。

为了在各类计算设备上都有一个非常好的计算性能表现,源 2.0 中提出了非均匀流水并行 + 优化器参数并行(ZeRO)+ 数据并行的策略。相较于经典的三维并且方法,创新算法有更好的适用性,显著降低了经典大模型训练过程中对于 AI 芯片之间的通讯带宽需求,同时还能获得非常高的性能表现。

大模型算力系统并不是算力的简单堆积,其需要解决低时延海量数据交换的挑战;需要解决多台机器均衡计算、避免冷热不均、消弭算力堵点的问题;需要解决在几个月漫长的计算过程中,当单一硬件出现故障时,训练中断、梯度爆炸、算法重新走一遍等等问题。所以,源 2.0 也不是浪潮信息的最终 ” 答卷 “。尽管源 2.0 已经拥有非常出色的表现,但是在刘军看来,这只是开了个头,未来还有很多值得挖掘的方向,浪潮信息会不断创新升级。

卷大模型还是卷应用?都要从开源中找答案

是应该卷模型还是卷应用?业界是有不同观点的。

很多做大模型的企业,都主张应该卷应用。现在百模酣战,是不是可以向前迈一步,开始卷应用了?

百度李彦宏在今年 3 月份就提出下一步的方向是大模型的应用,随后在 10 月份的百度大会上一口气发布了几十个原生应用。从做大模型的企业来看,一定是在自己的模型上卷应用,让模型不断进化,让应用价值不断落地,这是没有错的。

浪潮信息高级副总裁、AI&HPC 总经理刘军

那为什么还有那么多企业参与到百模大战当中呢?中国的大模型与 GPT4 还有或多或少的差距,即使是 GPT4 也还没有进化到天花板,也依然有很大的提升空间。此外,刘军认为未来的生成式 AI 是多元化生态,每个基础大模型可能会有不同的擅长领域。

所以,放到整个产业的视角来看,大模型和应用都要卷:一方面需要继续提升基础大模型的能力,因为只有基础大模型做好了才能更好地实现行业落地;另一方面,需要在应用落地方面继续创新。只有大模型侧和应用侧同时发力,双轮驱动,生成式 AI 的发展甚至是中国的 AI 产业才会有更好的前景。

双轮驱动,怎么卷才能最高效?答案是:开源。

在移动互联网时代,有一个封闭的 iOS 系统,还有一个开源的安卓系统。苹果很强大,自己就支撑了一个生态。但安卓更强大,开放的安卓系统吸引更多的手机厂商,更多的开发者,也衍生出一个更庞大的生态。

今年上半年,Meta 的 LLaMA 开源,给业界开了一个好头。正是看到开源的能量,国内的大模型也纷纷加入开源的阵营,包括阿里云、百川、智谱 AI、清华 EKG 等等。这一次源 2.0 也彻底开源,并且这是行业首个千亿开源大模型。

” 完全免费、完全可商用、不需要授权、最彻底的开源。” 吴韶华表示,浪潮信息希望通过开源真正的能够普惠产业用户,个人开发者,让大家能够通过源 2.0 构建更强的 AI 系统。

刘军强调,开源最本质的好处是让整个产业能够协同发展,” 回顾过去所有成功的开源项目,都是因为整个社区共同贡献的结果。”

首先,开源可以建立一个高效的反馈闭环,通过应用反哺大模型,加速大模型的进化。

浪潮信息希望通过开源吸引更多的开发者进来,同时发起了大模型共训计划,开发者可以在源 2.0 上自由地开发,如果遇到问题可以反馈给浪潮信息,尽快地提升模型的能力。

其次,开源可以更广泛地赋能行业、赋能企业,加速大模型价值的落地。

优秀开源模型是吸引开发者、繁荣生态的关键因素。以开放的心态开源,给开发者更强有力的支持,他们可以直接调用 API、中文数据集、模型训练代码等,大大降低开发者将大模型能力适配不同场景的难度,加速应用的落地,让企业尽快吃到 AI 时代的红利。

所以,无论是卷大模型还是卷应用,开源都是一条光明大道。

【结束语】

在诸多大模型中,浪潮信息也卷了进来。与其它大模型不同之处,就是其在计算方面的优势,通过算力的产品和技术的创新推动数字化、智能化的发展。

源从 1.0 进化到 2.0,给产业打个样,通过智算的力量去训练生成式 AI 大模型,浪潮信息的很多探索成果,可以赋能加速 AI 产业化和产业 AI 化的进步。

冷眼旁观 麻辣点评 深入分析

  真诚推荐你关注

END

推荐内容

+ There are no comments

Add yours