AI产品的数据价值 | wolf3c's blog

来自对 Yezi AI 的思考，接着 AI 产品的壁垒/竞争力是什么？继续思考。

首先我们分析一下数据有哪些。

从归属分，我们将数据分为：

公开数据，也就是大家都能在网上找到的数据，比如行业销量、股价、组织公布数据、新闻……
自有数据，也就是只有你自己拥有的数据，比如你调研了某个公司的真实销量，你拿着某个产品去做了研发化验以发现了成分和问题，只有你自己知道自己现在账户的钱，某个渠道获去的其他公司不知道信息……
用户数据，这就是用户自己上传的数据，归属用户，比如用户的笔记，用户的日记，用户的账户信息，用户写得文章、做的视频

从数据来源分，我们将数据分为：

虚拟世界信息，信息时代所有的信息都是数据，这个很好理解；
物理世界产生，但我们其实还有很多数据是从物理世界产生的，比如你的位置、车辆位置、你所在位置的光线、你的饥饿程度、你脚底板的舒服程度、你跑步的呼吸频次、你面对难题的心跳、路上的事故发生时间和解决进展、十字路口车辆的排队长度、某个车的起步速度……

从数据的根源，我们分为：

原始数据：即最初产生的数据；
分析数据：针对原始数据的清洗、关联、组织分析、得出结论等；

然而，如果我们做一款基于AI的产品，我们如何建立壁垒呢？

首先，壁垒肯定不是大模型能力，因为你不是大模型公司，你能用的AI能力，其他人也可以买到。

其次，很难是一种创新的idea，因为这个太容易抄袭了，甚至会出现很多免费的开源版本。

以前我看到过一种说法，壁垒有两种：

像数学定律，靠着聪明的「啊哈」时刻，想到别人不能想到的，这种除非你可以通过知识产权建立壁垒，不然很容易被抄袭，就像一个数学定律，你只要已发表，全世界所有人都会明白怎么回事；
像肌肉一样一点点积累，这种就看谁积累的快积累得多，你可以积累的早，你就可能比别人优先，但这种优势是一种坚持的功夫，没有什么秘密，永远在一种你追我赶的状态。

而AI产品，如果可以靠着数学式壁垒拿到先发优势，但之后只能靠着这点先发优势，快速建立肌肉壁垒，这个肌肉壁垒，在我看来就是数据，确切地说是：

从归属上，是自有数据和用户数据，尤其是用户数据，可以让用户放弃成本不断变高；
从数据来源讲，是尽量接入更多、更及时的物理世界产生的数据，因为虚拟世界数据要么已经被大模型压缩，要么很容易获取和接入；
从根源上，最好是原始数据/原创数据，其次可以基于自由数据产生分析数据；

那么，如何建立数据的壁垒的呢？

首先积极获取数据源，尤其：
1. 鼓励 or 通过某种机制，让用户产生数据（比如小红书、抖音、视频号等）；
2. 通过各种方式/触点，接入物理世界的数据（尤其是竞对无法接入的，保证独有）（比如高德接入红绿灯数据、天气数据、路况数据、停车场数据、充电桩数据）；
3. 自建数据渠道，比如类似浑水公司去调研某个公司的实际情况，当然，如果是一个本来可以产生数据的平台（比如拼多多、京东等）会更容易；
让数据源产生价值， $价值 = 受影响主体的价值 * 影响强度 * 受众范围$ $价值 = 受影响主体的价值 * 影响强度 * 受众范围$ （不严谨的表述），
1. 直接让用户使用，尤其是影响市场、公司观感的数据，比如deepseek 发布论文说不需要那么多GPU了，直接影响NVIDIA股价；
2. 分析/发现问题和议题，从而产生影响力；分析不止停留在当时当事，还需要关联其他类似事件、历史事件、时间维度的发展变化趋势等，挖掘出更多竞对没有的东西，影响强度更大的东西；
3. 扩大自己的受众，从而让价值增加，精确关联受众和其关心的主体，让受影响的主体的相关信息可以直达每个有需求的受众，但反之，噪音不会触达无需求的受众；
建立品牌壁垒。数据产生价值的前提是值得信赖，同样的消息路人和一个值得信赖的专家说出口，被关注的程度会有很大区别，一个平台如果能够建立被信赖的品牌，其输出的数据/信息往往能够产生更大价值，可以让数据的壁垒更牢靠。

下一篇： AI 产品的壁垒/竞争力是什么？→