当前位置：首页 > 财经

国产大模型Kimi爆火，公司为宕机致歉，记者实测→

时间： 2024-03-21 22:35 来源：未知

本文字数：，阅读时长大约分钟导读：记者实测对比了目前主流的国产大模型。

作者第一财经郑栩彤刘晓洁吕倩谁是中国版的接头从未消失，在一众“大哥”面前，一家创业公司被视为最有力的挑衅者，旗下名为“”的应用甚至成为了资本市场的新宠。

站在暗地里的是一家叫做月之暗面的公司，该公司月日宣布，智能助手在长上下文窗口技术上再次取得突破，无损上下文长度晋升了一个数量级到万字。

而在此前，宣布的数字约万汉字，上下文约万汉字。

长上下文意味着什么？实际威力如何？第一财经记者征求了业内人士的意见并实测了和通义千问等国产大模型产品。

为“宕机”致歉日下午，月之暗面旗下大模型应用的和小程序均无奈正常使用。

此前，月之暗面发布情况说明：从开始，观测到的系统流量持续异常增高，流量添加的趋势远超对资本的预期规划。

这导致了从开始，有较多的客户持续的体验到的异常标题问题，并对此表示深表歉仄。

在一个团队与用户相同的群里，方面人员表示，“从昨天开始用户量增速很快，工程师已经告急扩容了几次，还在实施更多应急措施。

访问量的激增让这家公司的收集一度陷入瘫痪。

公开资料显示，月之暗面由后杨植麟创立，成立于年月日，目前已完成三笔融资。

今年月，该公司完成一笔大额融资，以亿美元投前估值完成超亿美元轮，阿里领投，砺思资本、小红书跟投，投后估值约亿美元，是国内最重要的大模型独角兽之一。

长文本无损压缩是上述公司瞄准的一个方向。

据杨植麟介绍，长文本作为公司“登月”的第一步，是新的计较机内存，很本质，个性化并非通过微调实现，上下定亲义了个性化过程。

杨植麟还认为，大模型“马拉松刚开始，接下来会有更多差异化”。

在万汉字的基础上，又将上下文长度晋升至万。

关于长度晋升后有何变革，日，月之暗面相关负责人告诉第一财经记者，这会进一步帮忙打开对应用场景的想象力，包罗完整代码库分析了解、可自主帮人类完成多步骤复杂义务的智能体、不会遗忘要害信息的终身助理、真正统一架构的多模态模型等。

“大略来说，文本长度长就能跟一直对话，不会‘遗忘’之前的对话内容，还能有比较好的了解。

同时，一个项目代码可达几百万行，如果大模型支持的文本长度不够长，就无法了解并辅助工作。

有人员向记者解释。

就“长文本是否是未来竞争的一个差异化方向，抑或大模型厂商都在配合追逐的指标，长文本意味着什么？”的标题问题，一名大厂大模型研究人员告诉记者，目前判断一个大模型是否强大，还是基于指定评估数据集和用户日常聊天体验，但文本长度普遍无穷，这限制了商业价值。

在实际应用中，很多时辰需要斟酌的是需处理的平凡信息量。

如果大模型能办理长文本标题问题，潜在价值是平凡的，例如投喂财务数据输出完整财报、投喂大量病例情况让大模型帮忙办理医学标题问题。

“但值得注意的是，长文本扩展并不一定意味着实际效果足够好，还需要有足够了解威力以及对人类指令的遵照威力，文本之外，图像及文本大模型有更多需要处理，需要足够长的上下文威力支持。

除文本的长上下文外，要实现（通用人工智能）还需要有同时处理时空物多维度信息的威力。

上述研究员说。

而对于目前“与哪些上市公司开展协作”的标题问题，月之暗面并没有正面答复。

该公司负责人对记者表示，其开放平台是面向所有开发者和企业用户开放的，任何合规的开发者和企业都可以将智能助手暗地里的同款大模型接入到自己的产品或服务中，基于大模型卓越的长文本处理和指令遵照威力，升级或打造新的产品或服务。

国内大模型哪家强？国内大模型发展至今，不少应用已经徐徐走入端，但国产大模型了解威力如何？能了解长文本并给出高质量回答吗？第一财经记者今日实测了包罗、智谱清言、通义千问等国内几大主流大模型产品。

在评测后，记者发现，一些大模型还不支持长文本输入或不支持较大的文档上传，、通义千问在解读财报、研报、论文方面的威力较好，但有时会因“岑岭时段忙碌而暂不答复”，智谱清言则犯过将非上市公司参加股票行列的错误，文心一言对诸如选股、找最新陈诉的要求有时不直接回应且出现过焦点信息漏掉标题问题。

为测试对较长且较专业文本的了解和信息提取威力，记者还实测了和其他国内大模型在提取论文和研报信息的威力。

近日腾讯与清华大学、香港科技大学联合发布了一个图生视频模型，记者将该模型相关英文论文交给和通义千问、文心一言、智谱清言和讯飞星火，要求分析焦点内容和论文实现要领，和通义千问都给出详细解答。

其中，点明论文贡献、相关模型的框架和实现的要害步骤，要害词汇还附带英文名词标注，通义千问除了实现要领外，还解答了试验方面研究者如何进行评估。

别的，将论文发给讯飞星火后，讯飞星火给出较短的文档摘要，但不如和通义千问详细清晰，且讯飞星火对记者的提问表示“在文档中没有找到与提问相关的内容”，讯飞星火网页端对以上文档上传则无穷制。

别的，智谱清言限制上传文件巨细，记者希望上传的论文超过限制，记者复制论文内容至对话框，但很快也超过限制字数，无奈发出文字与对话。

文心一言同样限制文档巨细且限制对话框文字长度，导致无奈对文档进行分析。

对于哪个国产大模型能读懂研报并给出投资建议？记者将两份差别券商发布的关于人形机器人行业的研报交给、通义千问、讯飞星火、文心一言、智谱清言，其中一份长达页，记者要求大模型分析哪些机器人股票比较有潜力，并要求挑出两只可斟酌买的股票。

测试后果显示，和讯飞星火均给出家有潜力的个股并分析缘故原由，记者诘问“如果要挑两只股票买，哪两只比较好”，和讯飞星火给出了两只个股并解释缘故原由，同时提醒股票投资风险或建议征询财务顾问意见。

通义千问则按工业链差别环节排列余只有较高投资潜力的个股并解释缘故原由，根据研报资料筛选出两只股票，同样给出投资风险提示并建议寻求专业投资顾问的意见。

值得注意的是，通义千问和挑出的两只股票中，有一只是相同的，和讯飞星火筛选出的两只股票也有一只是相同的。

即便是给出了风险提示，但这样的后果也让部门券商分析师感到不安。

“如果将概念股的信息通过某些渠道加大投喂力度，这是否会引起搜索后果的导向出现毛病，激发较高的投资风险，目前不得而知。

某分析师说。

从记者评测的后果看，智谱清言给出只潜力比较大的个股中，其列出的公司中有一家并未上市。

文心一言则表示，工业链一些环节的公司具有潜力，但没有列出具体个股并逐个说明缘故原由，且未直接答复“买哪两只股票好”的标题问题，而是列出通用的选股策略。

在财报解读方面，第一财经记者将站年财报文档（）上传至大模型对话窗口，并让帮忙解读财报的焦点内容。

随后，分段给出了财务摘要数据和管理层评述，列出了净营业额、广告业务收入等重要财务数据；智谱给出了一段财务数据内容，且是原文繁体字，没有转成简体中文，而其他家都给出简体中文的答复；通义千问则分段给出了财务数据、业务数据、业务亮点与计谋执行、成本与开支控制等内容，从财报内容解读的全面性和有用性方面来说，较为凸起；文心一言给出了差别业务的营收数据，但焦点信息净亏损有漏掉，其他大模型没有出现这个漏掉。

记者随后试图同时上传年与年两份年报让对比，智谱清言、文心一言仅支持上传一份文档，试了几次都显示输出失败，表示“和聊的人太多，有点累了”；通义千问给出了两份年报的焦点变革，提到了要害的日活破亿、毛利率晋升、成本布局改善以及亏损收窄，体现较为凸起。

翻译场景上，记者以前段工夫的技术文档为例，其中涉及不少技术名词，让进行翻译。

记者先直接发送网页链接让翻译，仍然输出失败，通义千问和文心一言不支持网页翻译；智谱支持网页翻译，但只翻译了部门焦点内容，记者进一步要求其翻译全文，答复称“由于版权和长度限制，无奈提供完整的翻译”。

随后记者复制了部门要害内容考验各家大模型的翻译威力，从输出后果看，对于大模型训练（）、扩散模型（）、、这些专业名词，相比翻译器来说，各个大模型都体现得越发智能，但从阅读流畅性、智能分段这种指标来说，智谱略微胜出。

如果要辅助工作学习，这些大模型能起到多大作用？为测试这个威力，记者向、通义千问、文心一言提出“查询关于深度学习的最新研究陈诉”的要求，后果显示，能给出较好答复，但还不是异常“新”，其他两个模型未给出对应内容。

提供的具体陈诉内容链接中，三篇中的两篇来自年——一则来自知乎，一则来自新华网，还有另一篇来自《计较机应用研究》，未有明确工夫标注。

别的，通义千问答复“作为离线助手，无奈及时查询互联网上的最新深度学习研究陈诉”，并给出几项学术期刊、学术会议举荐。

文心一言直接从引言、算法创新、模型优化、应用场景拓展、市场与工业分析等角度给出归纳，但并不符合“最新研报”的诉求。

涉及日常生活的建议，、通义千问和文心一言给出答案的差距则不太大。

记者提出“一位岁、、的女性想要达到健身指标，该如何进行训练筹划制定”的标题问题，、通义千问、文心一言均从指标、训练筹划、饮食、休息等几方面给出全方位建议。

能赶上吗？“引爆”概念股，一定程度上呈现资本市场对国产大模型威力跃进的期待。

别的，近期国产大模型密集发布，厂商最频繁使用的一个词汇是“迫临”，强调自身技术实力“迫临”。

资本市场闻风而动、大模型密集发布暗地里，国产大模型能赶上了吗？一位人工智能行业人士对记者表示，由于目前大模型企业之间并无明确的对比项目，大多通过打榜的形式来佐证自身实力，因此无奈通过严谨的第三方数据来辨别厂商之间的技术差距，但可以明确的是，自从将闭源后，国内厂商与其差距目前仍较大。

多名业内人士也提到过国内厂商与硅谷厂商之间的差距。

智象未来创始人兼、加拿大工程院外籍院士梅涛表示，从通用大模型的角度来说，中国厂商与硅谷厂商之间的差距有被拉大的风险，缘故原由包罗人材密度标题问题、资本标题问题。

年，中国初创公司做通用大模型的公司用一千张卡的资本来对标，今年则用万张卡级别资本对标，而硅谷目前已经斟酌十万级甚至百万级的卡做对应的事情，对比缺口比较大。

相对来讲，梅涛认为多模态生成式领域的对比差距相对好一点，不论是还是，这个领域生成式模型基本上参数都在百亿级范围左右，该范围搭配千张卡左右的资本，创业公司通过早期融资还是可以实现的。

对这个差距没有那末大的领域，梅涛认为中国企业应优先斟酌的是如何在工业化方面做好产品迭代以及商业化，这些角度中国厂商很有可能比外洋企业更快更麻利。

澜舟科技创始人兼周明认为，目前中国在大模型算法上原创技术威力并不差，但在顶层设计上可以跟美国学习，或比美国做得更好。

周明认为国内缺乏一个国家机制或联盟体来定义一个大模型未来发展的必要趋势。

这个标题问题一旦办理，中国的人材便可以倏地攻关，尽管算力有余的标题问题尚存在，但通过算法或应用发力，可以斡旋算力有余的标题问题。

别的，周明认为国内大模型企业要跟国家的发展大趋势配合，而非一味去与美国相关企业看齐。

他称，很多国内大模型企业只知与美国企业看齐，亦步亦趋，后者提出一个技术点，国内便想要跟上或进行改良。

更适合的谈吐应从综合趋势上进行推进，最为重要的是应用驱动。

中国大模型相关企业与美国企业相比，在应用场景等方面尽管没有大的优势，但也不占劣势。

如果在场景和应用角度去反向驱动各个应用，推进国家经济和生产力方方面面晋升，中国基础创新威力有可能在下一轮创新中引领国际潮水。

谈及近一年人工智能领域的动态，中关村数智人工智能工业联盟理事长，原小米集体副总裁崔宝秋是兴奋的，他称，看好大数据和深度学习带来新一代技术的倏地发展。

从工夫线上来看，一年多前大模型的发布仍存在“胡说八道”的标题问题，让人感觉很不靠谱。

但在年，崔宝秋去到美国，接触大模型最新技术前沿，令他感受到新的时代到来，尽管大模型技术目前是美国引领，但中国企业也在倏地跟进。

梅涛近一年也在频繁往返中国与美国硅谷，在他看来，最新的体感就是中美生态确实不太一样，例如在投融资方面，不管是融资还是公司的估值方面，中美企业之间的差距是平凡的，特别是融资的情况，希望今年有所改变。

另外，虽说年是创新元年，但就遍地是黄金吗？周明认为不是，国内大模型领域很多地方都没有开拓出来，譬如大模型如何结合最后一公里、大模型的商业模式是什么、如何加强交付威力、普及产品的标准化，这些才刚刚开始，方兴未艾。

微信编纂高莉珊

本文来源于网络，不代表立场，转载请注明出处

我要收藏

0个赞

上一篇 李想为50万的“公路高铁”认错

下一篇 19岁少年“卖血”后猝死，涉事天坛生物年采血浆2035吨

转发到:

欢迎光临长和环球网！

国产大模型Kimi爆火，公司为宕机致歉，记者实测→