在过去的18个月里,作为一名独立开发者,我已经推出了五款AI驱动产品:一个文档分析工具、一个代码审查自动化服务、一个面向法律专业人士的AI写作助手、一个技术文档生成器,以及一个用于AI API成本监控的开发者工具。其中两款产品已经盈利且持续增长。两款产品因未能获得市场关注而关闭。一款产品仍在运行,但尚未覆盖其成本。以下这十二条经验教训,如果我在开始之前就知道,本可以为我节省大量时间、金钱和挫折。
经验教训1:API不是护城河
我构建的每款AI产品都始于一个假设:使用更好或更便宜的底层模型是一种有意义的竞争优势。事实并非如此。底层模型是任何人都可以获取的商品投入。护城河在于分发渠道、客户关系、工作流集成和专有数据——这些是任何软件业务中同样重要的竞争优势来源。围绕模型构建,而不是在模型之上构建。
经验教训2:提示工程无法规模化
我的五款产品中有三款严重依赖精心设计的提示,这些提示在测试中运行良好,但在生产环境中却出现了我未曾预料到的故障。生产环境中的用户输入比测试场景显示的更混乱、更多样化、更具对抗性。那些需要完美提示才能提供价值的产品是脆弱的。能够优雅处理不完美输入的产品——通过验证、回退和人工升级路径——更具防御性。
经验教训3:延迟是产品问题,而非技术问题
我的代码审查自动化服务部分失败,因为它需要15-30秒才能生成一次审查。功能本身是好的;但用户体验不是。开发者已经习惯于期望从工具中获得近乎即时的反馈。任何为现有工作流程增加可感知延迟的AI功能,都需要通过比快速替代方案好得多的输出来弥补。流式传输、进度指示器和并行处理在边缘情况下有所帮助,但如果核心延迟过高,它们并不能消除根本问题。
经验教训4:在基础设施上投入之前,先为实际用户投入
在通过用户访谈发现律师不希望云托管的AI工具处理客户文档(无论隐私保证如何)之前,我为我的法律写作助手花了两个月时间构建了一个强大的多租户基础设施。产品需要在本地部署。两个月的基建工作变成了技术债务,最终我将其删除。在编写重要的基础设施代码之前,先找到五个愿意付费的客户。
经验教训5:成本管理是一流的产品需求
AI API 的成本随使用量增长,这会给获得意外关注度的产品带来生存问题。我的文档生成器曾在 Twitter 上短暂走红,48 小时内获得了 2,000 个注册用户,同时也产生了 800 美元的意外 API 成本。在拥有用户之前就实施使用限制、成本监控警报和基于成本的功能控制,而不是在收到意外账单后才行动。
经验教训 6:对于一致性输出,微调优于提示工程
对于我的两个盈利产品,转折点是在特定领域的示例上微调小型模型,而不是继续为前沿模型优化提示。在 500 个特定领域示例上微调的 7B 模型,在特定任务上始终优于我使用 GPT-4 的最佳提示,同时只需 15% 的 API 成本。在任何有意义的使用量下,微调的投资都能快速回本。
经验教训 7:人工升级不是失败模式——而是一种功能
我做出的最有利于用户的设计决定是,在我的产品中构建明确的”我不确定这个结果,请审查”的输出。当工具承认不确定性,而不是以与高质量输出相同的信心呈现低置信度输出时,用户会更信任 AI 工具。升级路径还能捕捉到你的模型处理不佳的边缘情况,生成训练数据来改进未来版本。
经验教训 8:演示差距是真实存在的,而且很重要
我构建的每个 AI 产品在我选择向投资者和早期用户展示的演示中都表现得令人印象深刻。但每个 AI 产品也都有表现糟糕到令人尴尬的边缘情况。管理演示性能与平均性能之间的差距是一个产品问题,需要投资于输入验证、边缘情况检测和优雅降级——而不仅仅是模型改进。
经验教训 9:分发能力胜过技术能力
我的技术最差的产品(按模型质量指标衡量)是我商业上最成功的产品。它集成到了 50,000 名开发者日常使用的工作流程中,在最常见用例上提供 80% 的足够好的输出,并且收取大多数用户几乎不需要考虑的月度订阅费。那些需要用户改变工作流程的技术上更优越的产品难以增长。集成就是分发。
经验教训 10:可观测性不是可选的
无法衡量的东西就无法改进。记录每个模型的输入、输出、延迟、成本和用户操作,对于了解你的产品在生产环境中的实际表现至关重要。我早期投资于可观测性的产品,比那些在看到问题后才添加监控的产品改进得更快,避免了更多的生产事故。应将模型可观测性与应用程序可观测性同等对待。
经验教训 11:隐私问题是技术要求
在每家企业销售对话中,数据隐私问题总是在定价之前被提及。考虑使用能处理其数据的 AI 工具的组织,对数据去向、访问权限、保留时长以及可能用途等都有合理疑问。对这些问题的清晰、有文档记录的答案——以及理想的技术控制措施(本地部署选项、数据删除 API、审计日志)——是企业销售的先决条件,而非可有可无的附加功能。
第12课:模型是你产品中最不持久的部分
你产品当前所基于的模型将在12-18个月内被更好、更便宜的模型所取代。模型之间的切换成本是真实存在的,但如果从一开始就为此进行设计,这种成本就是可控的:将模型层封装在清晰的接口之后,系统性地评估新发布的模型,并将模型迁移规划为常规运营任务,而非紧急工程项目。
如今,独立推出 AI 产品比24个月前更可行,比12个月前更具竞争力。工具更加完善,模型能力更强,市场需求也真实存在。成功的产品建立在客户洞察之上,而非模型的新颖性——这一原则始终是区分成功软件与无人使用的技术上令人印象深刻软件的关键。
