第23章:竞品对比的诚实分析
定位:本章把 MemPalace 放在竞争格局中,逐系统、逐维度地对比。赢的地方实事求是地展示,输的地方同样实事求是地分析原因。不使用营销语言,不贬低竞品,不隐藏弱项。
先看成绩单
以下是 LongMemEval R@5 的直接对比,所有数据来自各系统的公开报告或可复现的 benchmark 运行:
| 系统 | LongMemEval R@5 | API 依赖 | 成本 |
|---|---|---|---|
| MemPalace (hybrid v4 + rerank) | 100% | 可选(Haiku) | Free + ~$0.001/查询 |
| Supermemory ASMR | ~99% | Yes | 未公开 |
| MemPalace (raw) | 96.6% | 无 | Free |
| Mastra | 94.87% | Yes (GPT-5-mini) | API 成本 |
| Mem0 | ~85% | Yes | $19-249/月 |
| Zep | ~85% | Yes | $25/月起 |
这张表是真实的。但如果你只看这张表就得出"MemPalace 碾压一切"的结论,你漏掉了很多重要的上下文。
四个维度的对比
一维的分数排名是危险的。它隐藏了系统之间根本性的架构差异,把不同设计哲学的产品强行放在同一个标尺上。更诚实的对比需要至少四个维度。
维度一:准确率
LongMemEval 是最标准的比较战场,上面的表已经展示了。但只看 LongMemEval 远远不够。
ConvoMem(75K+ QA 对)的对比:
| 系统 | ConvoMem 得分 | 说明 |
|---|---|---|
| MemPalace | 92.9% | 逐字存储 + 语义搜索 |
| Gemini(长上下文) | 70-82% | 把全部历史放进上下文窗口 |
| Block extraction | 57-71% | LLM 处理后的块提取 |
| Mem0 (RAG) | 30-45% | LLM 提取的记忆 |
MemPalace 在 ConvoMem 上超过 Mem0 两倍以上。这不是一个边际优势——是两倍。原因值得深入分析:Mem0 用 LLM 来决定"什么值得记住",然后只保存提取出来的事实。当 LLM 提取了错误的东西,或者遗漏了关键细节时,那部分记忆就永久丢失了。MemPalace 的逐字存储不做任何过滤——不判断什么重要、什么不重要——所以不存在"错误提取"这个失败模式。
但现在来看 MemPalace 表现不好的地方。
LoCoMo(1986 个多跳 QA 对):60.3% 的坦诚分析。
MemPalace 在 LoCoMo 上的基线成绩是 60.3% R@10(session 粒度,无 rerank)。这个分数不好。它意味着在四成的多跳推理问题中,MemPalace 连正确的 session 都没有排到前十名。
为什么?
LoCoMo 测试的是一种 MemPalace 的基础架构不擅长的能力:跨 session 信息串联。考虑一个典型的 LoCoMo 问题:"Caroline 在哪个领域找到了工作?"答案需要把 session 5(她提到对海洋生物学感兴趣)和 session 12(她说拿到了一个研究岗的 offer)串联起来。但 MemPalace 的语义搜索是逐 session 独立评分的——它不知道 session 5 和 session 12 有因果关系。问题里的关键词"领域"和"工作"分别与两个不同的 session 有微弱的语义关联,但不足以把任何一个排到 top-10。
更具体地拆解各类别的表现:
| 类别 | R@10(基线) | 说明 |
|---|---|---|
| temporal | 69.2% | 最好——时间关系是最直接的检索信号 |
| adversarial | 61.9% | 说话者混淆严重 |
| single-hop | 59.0% | 即使单跳也只有六成——搜索空间不够精确 |
| open-domain | 58.1% | 开放性问题的词汇匹配更难 |
| temporal-inference | 46.0% | 最差——需要推理的时间问题几乎是随机水平 |
temporal-inference 的 46.0% 接近随机猜测的表现。这是 MemPalace 最诚实的弱点:当答案需要跨越多个时间节点进行推理时,纯粹的向量检索基本不工作。
不过需要指出的是,LoCoMo 的竞品对比数据有限。Mem0、Zep、Supermemory 都没有公开报告 LoCoMo 成绩。已知的参照点是 Memori 系统的 81.95%(R@10),MemPalace 的 hybrid v5 模式(88.9% R@10)超过了它。但基线的 60.3% 确实不占优。
还有一个结构性问题需要透明公开:LoCoMo 的每个对话只有 19-32 个 session,当使用 top-k=50 进行检索时,候选池已经包含了所有 session——此时 Sonnet rerank 本质上是在做阅读理解,不是检索。因此,使用 top-k=50 + Sonnet rerank 得到的 100% 分数有结构性保证,不应与 top-k=10 的诚实检索分数混为一谈。诚实的 LoCoMo 分数是 top-10 下的成绩。
维度二:成本
这是 MemPalace 的核心优势之一,也是最容易被量化的维度。
| 系统 | 月度成本 | 年度成本 | 成本构成 |
|---|---|---|---|
| MemPalace (raw) | $0 | $0 | 无 API 调用 |
| MemPalace (hybrid + rerank) | ~$0.30 | ~$3.60 | ~300 次查询 x $0.001/次 |
| Mastra | 变动 | 变动 | GPT-5-mini API 成本 |
| Mem0 | $19-249 | $228-2,988 | 订阅制 |
| Zep | $25+ | $300+ | 订阅制 |
| Letta (MemGPT) | $20-200 | $240-2,400 | 订阅制 |
MemPalace 的 raw 模式成本是零。字面意义上的零。没有 API 调用,没有云服务,没有订阅费。ChromaDB 运行在本地,当前基线使用的是 ChromaDB 默认的本地 embedding 路径。更谨慎地说,源码并没有把默认 embedding 资产直接 vendoring 进仓库,因此更准确的口径仍然是:初始资产准备完成后,日常 raw 查询成本为零。
即使加上可选的 Haiku rerank,每次查询的成本大约是 $0.001——一千次查询一美元。假设一个活跃用户每天做 10 次记忆搜索,一个月 300 次查询的成本是 $0.30。
这个成本差异不是百分比级别的。Mem0 的入门价($19/月)是 MemPalace raw 模式成本的无穷大倍——因为分母是零。即使与 MemPalace 的 hybrid 模式相比,Mem0 的年度最低成本($228)仍然是 MemPalace 的 63 倍。
但公平地说,Mem0 和 Zep 的定价包含了 MemPalace 不提供的东西:托管基础设施、管理界面、团队协作功能、SLA 保障。对于企业用户来说,$25/月的 Zep 可能比"免费但自己运维"的 MemPalace 实际上更便宜——因为运维时间本身有成本。
维度三:隐私
| 系统 | 数据位置 | API 通信 | 隐私模型 |
|---|---|---|---|
| MemPalace (raw) | 本地为主(初始资产就绪后) | 无 | 日常 raw 运行时数据不离开你的机器 |
| MemPalace (hybrid) | 主要本地 | 仅 rerank 时发送 session 片段 | 可选的最小数据外发 |
| Mem0 | 云端 | 全程 API | 厂商持有数据 |
| Zep | 云端 | 全程 API | SOC 2, HIPAA 合规 |
| Supermemory | 云端 | 全程 API | 厂商持有数据 |
| Mastra | 取决于部署 | GPT API | OpenAI 持有查询数据 |
MemPalace 的 raw 模式是市场上少数真正接近"零数据外发"的主流 AI 记忆系统。不是"我们加密了数据",不是"我们符合 SOC 2",而是在日常 raw 运行阶段没有必要把查询和记忆发送到第三方 API。ChromaDB 跑在本地,搜索在本地,知识图谱也在本地。更谨慎地说,书里其他章节已经说明默认嵌入资产存在一次准备过程;但在那之后,你的对话记录——包含技术决策、内部讨论、代码片段、甚至个人偏好——都可以持续停留在你的磁盘上。
hybrid 模式引入了一个隐私权衡:当启用 LLM rerank 时,top-K 候选 session 的前 500 个字符会被发送到 Anthropic 的 API 用于重排序。这意味着每次查询有少量对话内容会离开你的机器。但这是可选的、可控的:你可以选择不使用 rerank 而接受 96.6% 的成绩,或者使用 rerank 追求更高的准确率。
Zep 值得特别提及:它是这个领域中隐私合规做得最认真的商业产品。SOC 2 认证和 HIPAA 合规意味着它经过了第三方审计,数据处理流程有法律约束力。对于医疗、金融等受监管行业的用户,Zep 的合规性可能比 MemPalace 这种"本地为主、长期离线可用"的方案更实用——因为后者意味着相当一部分合规责任由用户自己承担。
维度四:API 依赖
| 系统 | 无 API 可用 | 需要哪些 API | 离线运行 |
|---|---|---|---|
| MemPalace (raw) | 完全可用 | 无 | 冷启动准备后可离线 |
| MemPalace (hybrid) | 96.6% 可用,100% 需 API | Anthropic(可选) | 部分离线 |
| Mastra | 不可用 | OpenAI (GPT-5-mini) | 不支持 |
| Mem0 | 不可用 | 自有 API + LLM API | 不支持 |
| Zep | 不可用 | 自有 API + Graph DB | 不支持 |
| Supermemory | 不可用 | 自有 LLM API | 不支持 |
这一维度的对比非常清晰:MemPalace 是唯一一个在完全没有 API key 的情况下仍然能提供竞争力成绩的系统。96.6% 的 R@5——零 API 调用——已经超过了 Mastra(94.87%,需要 GPT-5-mini)、Mem0(~85%,需要付费订阅)、Zep(~85%,需要付费订阅)。
这不是一个微不足道的属性。API 依赖意味着:
- 可用性风险:当 API 提供商宕机时,你的记忆系统完全不工作。2024-2025 年间,主要 LLM API 的累计宕机时间足以让这成为一个真实问题。
- 成本不可控:API 定价由提供商单方面决定。你的记忆系统的运行成本取决于一个你无法控制的变量。
- 地理限制:某些地区无法访问某些 API 提供商。一个依赖 OpenAI API 的记忆系统在某些网络环境下无法使用。
- 数据主权:API 调用意味着数据出境。对于某些组织和地区的合规要求,这是一个硬约束。
逐个竞品分析
Supermemory ASMR(~99% R@5)
Supermemory 是距离 MemPalace 最近的竞品。它的 ASMR(Agentic Search with Memory Retrieval)架构在 LongMemEval 上报告了约 99% 的成绩——但这是实验版本的数字,其生产版本约在 85%。
Supermemory 做对了什么: ASMR 使用 LLM 运行多轮搜索——第一轮检索结果不满意时,LLM 会重新构造查询再搜一次。这种 agentic 方法在语义模糊的查询上特别有效:当第一次搜索没命中时,LLM 能理解失败的原因并调整策略。
MemPalace 的对比优势: 没有 API 依赖。Supermemory 的每次搜索可能触发多次 LLM 调用,成本和延迟都更高。MemPalace 的 raw 模式零成本、亚秒延迟——这在高频搜索场景下差距明显。
公平的判断: 如果你不在乎成本和延迟,Supermemory 的 agentic 方法可能在某些复杂查询上比 MemPalace 更灵活。但如果你在乎隐私和离线能力,Supermemory 不是一个选项。
Mastra(94.87% R@5)
Mastra 使用 GPT-5-mini 作为"观察者"——LLM 在对话进行时实时提取观察结果,然后存储这些观察而不是原始对话。
Mastra 做对了什么: 提取阶段的 LLM 能理解对话的结构,把隐含的信息显性化。如果用户说"上次那个 Postgres 的问题让我头疼了一整天",Mastra 的 LLM 能提取出"用户在 Postgres 上遇到过困难"这个显性事实。
Mastra 的问题: 一旦提取完成,原始对话就被丢弃了。如果 GPT-5-mini 在提取时遗漏了某个细节——比如它把"头疼了一整天"理解为情感表达而没有记录为时间投入——那个信息就永久丢失了。MemPalace 保留原始文本,不存在这个失败模式。
分数差距的含义: MemPalace raw(96.6%)比 Mastra(94.87%)高 1.7 个百分点。这个差距在统计上是显著的——在 500 个问题上意味着 9 个问题的差异——但不是压倒性的。考虑到 Mastra 需要 API 成本而 MemPalace 不需要,这 1.7pp 的优势变得更有分量。
Mem0(~85% R@5)
Mem0 是这个领域知名度最高的产品之一——品牌认知度远超 MemPalace。它使用 LLM 提取"核心记忆"——把对话蒸馏成简短的事实片段。
Mem0 做对了什么: 它的用户体验很好。集成简单,管理界面直观,记忆的可视化做得比任何竞品都好。对于不想自己运维的团队,Mem0 的托管服务省去了所有基础设施的操心。
Mem0 的根本问题: 在 ConvoMem benchmark 上,Mem0 只拿到了 30-45%——不到 MemPalace 92.9% 的一半。原因是系统性的,不是偶然的:LLM 提取记忆的方式不可避免地丢失信息。当 LLM 把一个 45 分钟的架构讨论压缩成"用户偏好 Postgres"时,它丢失了为什么偏好 Postgres、在什么场景下、对比了哪些替代方案、权衡了哪些因素。后续当问题涉及这些被丢弃的上下文时,系统找不到答案。
公平的承认: Mem0 的 $19-249/月定价包含了 MemPalace 没有的商业支持、SLA、团队协作功能。对于一个需要"开箱即用、有人负责"的企业团队来说,Mem0 的总拥有成本可能比 MemPalace 更低——因为 MemPalace 的"免费"不包含运维人力成本。
Zep(~85% R@5)
Zep 使用图数据库(类似 Neo4j 的方案)来存储实体关系。它的 Graphiti 系统建立了时间感知的知识图谱——实体之间的关系有生效和失效时间。
Zep 做对了什么: 知识图谱方法在实体关系查询上有天然优势。"Kai 现在在做什么项目?"这种查询,图数据库可以直接遍历边来回答,不需要在文档集合中搜索。时间有效性的设计也很优雅——当事实发生变化时,旧的关系被标记为失效而不是删除。
MemPalace 的对比: MemPalace 的知识图谱(knowledge_graph.py)提供了类似的能力——时间有效性、实体查询、timeline——但底层用的是 SQLite 而不是 Neo4j。这意味着零额外依赖、零运维成本,但也意味着在大规模图遍历上可能比专业图数据库慢。
公平的判断: 在 LongMemEval 上的 ~85% 成绩可能不能完全代表 Zep 的能力。Zep 的设计目标不仅是检索——它的图谱能力、实体关系管理、企业合规性(SOC 2、HIPAA)都是 MemPalace 没有正式提供的。如果你的需求是"构建一个合规的企业级记忆系统",Zep 的 ~85% 检索成绩可能是一个可以接受的权衡。
Hindsight(91.4% R@5)
Hindsight 是一个较新的系统,由 Virginia Tech 验证,使用 Gemini-3 和时间感知的向量检索。
Hindsight 做对了什么: 它的时间感知方法与 MemPalace 的 hybrid v2 中的时间增强相似——在向量相似度的基础上加入时间接近度作为信号。这个方向是正确的,因为很多记忆查询本质上是时间锚定的。
分数定位: 91.4% 介于 Mem0/Zep(~85%)和 Mastra(94.87%)之间。它需要 LLM API(Gemini-3),但性能还没有达到不需要 API 的 MemPalace raw(96.6%)。
MemPalace 赢在哪里
从四维对比中可以清晰地提炼出 MemPalace 的竞争优势:
在准确率维度上,MemPalace 的 raw 模式(96.6%)在无 API 条件下已经超过了所有需要 API 的竞品中除 Supermemory ASMR 实验版之外的全部。hybrid v4 + rerank 的 100% 是目前已发布的 LongMemEval 最高分。
在成本维度上,MemPalace 是唯一的零成本选项。所有其他系统至少需要 API 调用成本或订阅费。
在隐私维度上,MemPalace 的 raw 模式是唯一真正的零数据外发方案。
在 API 依赖维度上,MemPalace 是唯一在无 API 条件下仍然具有竞争力的系统。
这些优势有一个共同的技术根源:MemPalace 选择了"保留一切、用结构来组织"而不是"用 AI 来提取和压缩"。这个设计决策的直接后果是不需要 LLM 参与索引过程,因此不需要 API、不需要成本、不需要数据外发。
MemPalace 输在哪里
同样诚实地,MemPalace 在以下场景中是弱于竞品的:
多跳推理。 LoCoMo 的 60.3% 基线成绩显示,当答案需要跨 session 串联时,纯语义检索不够用。使用 LLM 进行记忆提取的系统(Mem0、Mastra)可以在提取阶段就建立跨 session 的关联——"用户在 session 5 提到对海洋生物学的兴趣,在 session 12 找到了相关工作"可以被提取为一条连贯的记忆。MemPalace 把这两个 session 分别存储,搜索时只能独立评分。
hybrid v5 模式把 LoCoMo 成绩提升到了 88.9%(R@10),主要通过关键词增强和人名提取。Wings v3 的说话者归属设计把 adversarial 类别从 34.0% 推到了 92.8%。但 temporal-inference 类别——需要真正的时间推理——始终是最弱的环节。
企业功能。 MemPalace 没有管理控制台、没有团队协作、没有审计日志、没有 SLA。Zep 和 Mem0 作为商业产品,在这些维度上远远领先。对于需要"IT 部门能管理"的企业客户,MemPalace 目前不是一个可行的选项。
集成生态。 Mem0 和 Zep 有丰富的 SDK(Python、JavaScript、Go)、与主流框架的集成、详细的 API 文档。MemPalace 的集成方式主要是 MCP(Model Context Protocol)和 CLI——对于已经在用 Claude 的开发者来说很方便,但对于其他生态的用户来说门槛更高。
嘈杂数据的处理。 MemBench benchmark 中的 noisy 类别——故意在问题中混入干扰信息——MemPalace 只拿到了 43.4%。这暴露了逐字存储方法的一个结构性弱点:当噪声在 embedding 层面与信号不可区分时,检索质量会严重退化。使用 LLM 提取的系统可以在提取阶段过滤噪声,但 MemPalace 把一切都保留了——包括噪声。
100% 背后的诚实
MemPalace 在 LongMemEval 上拿到了 100%——500/500,所有六种题型全部满分。这是事实。但这个事实需要一些上下文。
从 96.6% 到 99.4% 的提升路径(hybrid v1 到 v3)是基于分类别的失败模式分析——每次改进都针对一类问题,而不是特定的某个问题。这些改进是可泛化的。
但从 99.4% 到 100% 的最后 3 个问题,是通过检查这三个特定问题的失败原因来修复的:
- 一个问题因为包含带引号的短语
'sexual compulsions'而需要精确短语匹配 - 一个问题因为涉及特定人名
Rachel而需要专名提权 - 一个问题因为涉及高中回忆而需要怀旧模式的偏好提取
这三个修复是针对测试集的调优(teaching to the test)。它们可能泛化到类似的查询模式,也可能只在这三个特定问题上有效。在严格的学术评审中,这是一个需要标注的方法论问题。
团队对此的处理方式是:建立了一个 50/450 的 dev/held-out 拆分。450 个从未用于调优的 held-out 问题上,hybrid v4 的成绩是 98.4% R@5、99.8% R@10。这才是诚实的可发布数字。
三个数字讲了三个不同的故事:
- 96.6% — 零 API、零调优、零人工干预的基线能力。最保守也最可靠的声明。
- 98.4% — held-out 集上的诚实成绩,包含了可泛化的改进但排除了测试集调优。
- 100% — 在完整测试集上的满分,包含了三个针对特定问题的修复。辉煌但需要加注释。
60.3% 意味着什么
如果 100% 是需要上下文的好消息,60.3% 就是需要分析的坏消息。
LoCoMo 的 60.3% R@10 基线意味着 MemPalace 在多跳推理任务上的表现只是"及格"。在五个类别中,temporal-inference 只有 46.0%——接近随机水平。
但"及格"不等于"失败"。这里有三层分析。
第一层:这个分数是无 API 条件下的。 所有使用 LLM 辅助的系统在 LoCoMo 上的表现都更好,因为多跳推理本质上需要理解——不只是检索。MemPalace 的 60.3% 是用一个纯检索系统去做推理任务的结果。在同一条件下(无 LLM),MemPalace 的 hybrid v5 已经达到 88.9%,超过了 Memori 的 81.95%。
第二层:优化空间已被验证。 Wings v3 的说话者归属设计把 adversarial 从 34.0% 提升到 92.8%——这证明了结构化改进可以大幅提升 LoCoMo 成绩。bge-large embedding 模型(替换默认的 all-MiniLM)把 single-hop 从 59.0% 提升了 10.6pp。Haiku rerank 把 bge-large 的成绩从 92.4% 进一步推到 96.3%。这些改进的方向是明确的。
第三层:LoCoMo 的结构限制。 每个对话只有 19-32 个 session,当 top-k=50 时所有 session 都在候选池中,使得 rerank 变成阅读理解。这意味着 LoCoMo 的 100% rerank 分数和 LongMemEval 的 100% rerank 分数不能用同一个标准来评价。前者有结构性保证,后者是真正的检索成就。
设计哲学的根本分歧
所有这些对比的背后,是两种截然不同的设计哲学。
路线 A:"让 AI 决定什么值得记住"。 这是 Mem0、Mastra、Supermemory 的路线。LLM 阅读对话,提取关键信息,丢弃其余部分。优点是存储紧凑、检索空间小。缺点是不可逆地丢失了原始上下文——一旦提取错了,没有回头路。
路线 B:"保留一切,用结构来组织"。 这是 MemPalace 的路线。不做任何信息过滤,逐字保存原始对话。用 palace 结构(wing、hall、room、closet、drawer)来组织,用 semantic search 来检索。优点是零信息损失、零 API 依赖。缺点是搜索空间更大、多跳推理更难。
LongMemEval 的结果表明:路线 B 的检索精度不低于路线 A,甚至更高。96.6% vs 85-95% 不是一个侥幸的结果——它反映了一个基本事实:当你保留了全部原始文本时,答案总在那里等你找到。而当你让 LLM 提取记忆时,答案可能已经被"提取"掉了。
LoCoMo 的结果表明:路线 B 在推理任务上确实弱于路线 A 的潜力。逐字存储保留了信息,但没有建立信息之间的关联。这是一个开放的工程问题——palace 结构中的 tunnel(跨 wing 连接)和知识图谱的时间有效性正在试图解决它。
最终,这不是一个"哪个路线更好"的问题,而是一个"你在优化什么"的问题。如果你的首要约束是隐私和成本,路线 B 是唯一的选择。如果你的首要约束是推理深度和企业合规,路线 A 的商业产品可能更适合。MemPalace 选择了路线 B,然后在这条路线上走到了当前已知的最远处。
不宣称的东西
最后,有些东西是 MemPalace 明确不宣称的:
不宣称"最好的 AI 记忆系统"。 这取决于你用什么标准来定义"最好"。在 LongMemEval 上,是的。在 LoCoMo 的基线上,不是。在企业功能上,远远不是。
不宣称竞品不好。 Mem0 在用户体验上做得比 MemPalace 好。Zep 在合规性上做得比 MemPalace 好。Supermemory 的 agentic 搜索在某些场景下比 MemPalace 更灵活。每个系统在自己的设计约束下都做出了合理的工程选择。
不宣称 100% 是无条件的。 100% 有上下文。98.4% 的 held-out 分数是更诚实的数字。96.6% 的无 API 基线是最保守的声明。三个数字都是真的,但它们回答不同的问题。
不宣称免费等于零成本。 MemPalace 的软件是免费的,但运行它需要你自己的机器、自己的时间、自己的运维能力。对于有 IT 团队的企业,$25/月的 Zep 可能比"免费但自己管"的 MemPalace 实际成本更低。
验证一个系统的最诚实方式,不是只展示你赢的地方,而是同时展示你输的地方,并解释为什么。这一章试图做到这一点。下一部分将从验证转向未来——MemPalace 的路线图、已知的待解决问题、以及这个项目的开放方向。