两年过去了,ChatGPT 公开亮相,关于 AI 的讨论无处不在。各行各业的公司都希望利用大型语言模型(LLMs)来改变他们的业务流程。然而,尽管 LLMs 功能强大且前景广阔,但许多业务和 IT 领导者过度依赖它们,而忽视了它们的局限性。这就是为什么我预计未来专业语言模型(SLMs)将在企业 IT 中发挥更大的补充作用。 SLMs 通常被称为“小型语言模型”,因为它们需要更少的数据和训练时间,并且是“LLMs 的更精简版本”。但我更喜欢“专业”这个词,因为它更好地传达了这些专门构建的解决方案比 LLMs 更能以更高的准确性、一致性和透明度执行高度专业化的工作的能力。通过用 SLMs 补充 LLMs,组织可以创建利用每个模型优势的解决方案。 信任和 LLM 的“黑匣子”问题 LLMs 非常强大,但它们也以有时“失去情节”或由于其通用训练和庞大的数据集而提供偏离主题的输出而闻名。OpenAI 的 ChatGPT 和其他 LLMs 本质上是“黑匣子”,这一事实使这一趋势更加复杂,它们不会透露它们是如何得出答案的。 这个黑匣子问题在未来将成为一个更大的问题,特别是对于准确性、一致性和合规性至关重要的公司和关键业务应用程序。想想医疗保健、金融服务和法律等行业,不准确的答案可能会产生巨大的财务后果,甚至会危及生命。监管机构已经注意到这一点,并可能开始要求可解释的 AI 解决方案,特别是在依赖数据隐私和准确性的行业。 虽然企业经常采用“人在回路”的方法来缓解这些问题,但过度依赖 LLMs 会导致虚假的安全感。随着时间的推移,自满情绪会逐渐滋生,错误可能会在未被发现的情况下溜走。 SLMs = 更大的可解释性 幸运的是,SLMs 更适合解决 LLMs 的许多局限性。SLMs 不是为通用任务而设计的,而是具有更窄的焦点,并在特定领域的数据上进行训练。这种特殊性使它们能够处理精度至关重要的领域中的细微语言要求。SLMs 不是依赖于庞大的异构数据集,而是在目标信息上进行训练,使它们具有提供更一致、可预测和相关响应的上下文智能。 这提供了几个优点。首先,它们更具可解释性,更容易理解其输出的来源和理由。这在需要追溯决策来源的受监管行业中至关重要。 其次,它们的尺寸较小,通常可以比 LLMs 更快地执行,这对于实时应用程序可能是一个关键因素。第三,SLMs 为企业提供了对数据隐私和安全的更多控制,特别是如果它们在内部部署或专门为企业构建。 此外,虽然 SLMs 最初可能需要专业培训,但它们降低了与使用由外部提供商控制的第三方 LLMs 相关的风险。这种控制在需要严格数据处理和合规性的应用程序中非常宝贵。 专注于培养专业知识(并警惕过度承诺的供应商) 我想明确的是,LLMs 和 SLMs 不是相互排斥的。在实践中,SLMs 可以增强 LLMs,创建混合解决方案,其中 LLMs 提供更广泛的上下文,而 SLMs 确保精确执行。即使在 LLMs 方面,现在也还处于早期阶段,所以我总是建议技术领导者继续探索 LLMs 的许多可能性和好处。 此外,虽然 LLMs 可以很好地扩展到各种问题,但 SLMs 可能不适用于某些用例。因此,重要的是要事先清楚地了解要解决的用例。 同样重要的是,业务和 IT 领导者要投入更多的时间和注意力来培养训练、微调和解测试 SLMs 所需的独特技能。幸运的是,通过常见来源(如 Coursera、YouTube 和 Huggingface.co)可以获得大量免费信息和培训。领导者应该确保他们的开发人员有足够的时间学习和试验 SLMs,因为 AI 专业知识的争夺战正在加剧。 我还建议领导者仔细审查合作伙伴。我最近与一家公司交谈,他们征求我对某一技术提供商的声明的意见。我的看法是,他们要么夸大了自己的声明,要么在理解技术能力方面根本不够深入。 该公司明智地退后一步,实施了受控的概念验证来测试供应商的声明。正如我所怀疑的那样,该解决方案根本没有准备好投入使用,该公司能够相对较少的时间和金钱投入就离开。 无论公司是从概念验证开始还是从实时部署开始,我都建议他们从小处着手,经常测试,并在早期成功的基础上再接再厉。我个人曾经历过使用一小部分指令和信息,结果发现当我向模型提供更多信息时,结果偏离了轨道。这就是为什么缓慢而稳定是一种谨慎的方法。 总之,虽然 LLMs 将继续提供越来越有价值的功能,但随着企业扩大对 AI 的依赖,它们的局限性变得越来越明显。用 SLMs 补充提供了一条前进的道路,特别是在需要准确性和可解释性的高风险领域。通过投资 SLMs,公司可以为他们的 AI 战略提供未来保障,确保他们的工具不仅推动创新,而且满足信任、可靠性和控制的要求。 AJ Sunder 是 Responsive 的联合创始人、CIO 和 CPO。