Transformer是当下爆火的GPT、LLAMA、PaLM等大模型普遍采用的基础架构,它的崛起无疑是深度学习历史长河中一个重要的里程碑。凭借着其强大的自然语言理解能力,Transformer在问世的短短几年内便取代了传统的RNN网络结构,不仅成为自然语言处理领域的主流模型架构,还在计算机视觉、语音识别等多个领域展示了其跨界的通用能力。
在Transformer已经占据人工智能领域半壁江山的今天,为什么岩芯数智还要寻求非Transformer的更多可能性?
刘凡平的看法是,在全球范围内,一直以来都有不少优秀的研究者试图从根本上解决对Transformer架构的过度依赖,寻求更优的办法替代Transformer。就连Transformer 的论文作者之一Llion Jones也在探索‘Transformer 之后的可能’,试图用一种基于进化原理的自然启发智能方法,从不同角度创造对AI框架的再定义。
岩芯数智也不例外,他们在对Transformer模型不断的调研和改进过程中,意识到了重新设计大模型的必要性:一方面,在Attention机制下,现有架构的调整几乎已经达到瓶颈;另一方面,岩芯数智更期望降低企业对大模型的使用门槛,让大模型在更少的数据、更低的算力下具备更强的性能,以应用于更广泛的业务。因此,在历经近1000多个日夜,超过几百次的设计、修改、优化、对比、重来后,岩芯数智自主研发出了不再依赖Transformer的全新架构――“Yan架构”,同时,基于Yan架构的通用大模型应运而生。
据他介绍,Yan架构拥有相较于同等参数Transformer的7倍训练效率、5倍推理吞吐、3倍记忆能力,同时支持CPU无损运行、低幻觉表达、100%支持私有化应用。
刘凡平表示,“我们没有在去年热度最高的时候发布YAN架构、也没有选择通过刷榜单评比自身应有的排名,是因为我们认为最终决定你这个东西是不是有价值的是客户,我们想做更长远的事情。当然,除了星辰大海,我们也会脚踏实地做商业化应用,保证第一是能用的,第二是好用的,第三是大家愿意用的。”
刘凡平认为,本质上岩芯数智为行业提供了新的视角、新的价值。“这条路最终是不是对的,行业还没有定论,但是通过堆积算力带来的昂贵成本与低性价比,一定是大多数企业不愿负担的,这并没有让人工智能给大家创造一个更加多元化或者更可行的体验。
所以我们觉得在这个市场我们是能提供价值的。当我们能创造一个新的价值的时候,我们就不会去惧怕巨头或者大厂,他们也没有解决客户的痛点,我们的起点是差不多的。我们是思考过,确信自身能提供新思路、新方案、新应用、新价值,解决用户的痛点。”