AI产品的数据价值

Posted on 2025-01-26,5 min read

来自对 Yezi AI 的思考,接着 AI 产品的壁垒/竞争力是什么?继续思考。

首先我们分析一下数据有哪些。

从归属分,我们将数据分为:

  1. 公开数据,也就是大家都能在网上找到的数据,比如行业销量、股价、组织公布数据、新闻……
  2. 自有数据,也就是只有你自己拥有的数据,比如你调研了某个公司的真实销量,你拿着某个产品去做了研发化验以发现了成分和问题,只有你自己知道自己现在账户的钱,某个渠道获去的其他公司不知道信息……
  3. 用户数据,这就是用户自己上传的数据,归属用户,比如用户的笔记,用户的日记,用户的账户信息,用户写得文章、做的视频

从数据来源分,我们将数据分为:

  1. 虚拟世界信息,信息时代所有的信息都是数据,这个很好理解;
  2. 物理世界产生,但我们其实还有很多数据是从物理世界产生的,比如你的位置、车辆位置、你所在位置的光线、你的饥饿程度、你脚底板的舒服程度、你跑步的呼吸频次、你面对难题的心跳、路上的事故发生时间和解决进展、十字路口车辆的排队长度、某个车的起步速度……

从数据的根源,我们分为:

  1. 原始数据:即最初产生的数据;
  2. 分析数据:针对原始数据的清洗、关联、组织分析、得出结论等;

然而,如果我们做一款基于AI的产品,我们如何建立壁垒呢?

首先,壁垒肯定不是大模型能力,因为你不是大模型公司,你能用的AI能力,其他人也可以买到。

其次,很难是一种创新的idea,因为这个太容易抄袭了,甚至会出现很多免费的开源版本。

以前我看到过一种说法,壁垒有两种:

  1. 像数学定律,靠着聪明的「啊哈」时刻,想到别人不能想到的,这种除非你可以通过知识产权建立壁垒,不然很容易被抄袭,就像一个数学定律,你只要已发表,全世界所有人都会明白怎么回事;
  2. 像肌肉一样一点点积累,这种就看谁积累的快积累得多,你可以积累的早,你就可能比别人优先,但这种优势是一种坚持的功夫,没有什么秘密,永远在一种你追我赶的状态。

而AI产品,如果可以靠着数学式壁垒拿到先发优势,但之后只能靠着这点先发优势,快速建立肌肉壁垒,这个肌肉壁垒,在我看来就是数据,确切地说是:

  1. 从归属上,是自有数据 和 用户数据,尤其是用户数据,可以让用户放弃成本不断变高;
  2. 从数据来源讲,是尽量接入更多、更及时的物理世界产生的数据,因为虚拟世界数据要么已经被大模型压缩,要么很容易获取和接入;
  3. 从根源上,最好是原始数据/原创数据,其次可以基于自由数据产生分析数据;

那么,如何建立数据的壁垒的呢?

  1. 首先积极获取数据源,尤其:
    1. 鼓励 or 通过某种机制,让用户产生数据(比如小红书、抖音、视频号等);
    2. 通过各种方式/触点,接入物理世界的数据(尤其是竞对无法接入的,保证独有)(比如高德接入红绿灯数据、天气数据、路况数据、停车场数据、充电桩数据);
    3. 自建数据渠道,比如类似浑水公司去调研某个公司的实际情况,当然,如果是一个本来可以产生数据的平台(比如拼多多、京东等)会更容易;
  2. 让数据源产生价值,=价值 = 受影响主体的价值 * 影响强度 * 受众范围(不严谨的表述),
    1. 直接让用户使用,尤其是影响市场、公司观感的数据,比如deepseek 发布论文说不需要那么多GPU了,直接影响NVIDIA股价;
    2. 分析/发现 问题和议题,从而产生影响力;分析不止停留在当时当事,还需要关联其他类似事件、历史事件、时间维度的发展变化趋势等,挖掘出更多竞对没有的东西,影响强度更大的东西;
    3. 扩大自己的受众,从而让价值增加,精确关联受众和其关心的主体,让受影响的主体的相关信息可以直达每个有需求的受众,但反之,噪音不会触达无需求的受众;
  3. 建立品牌壁垒。数据产生价值的前提是值得信赖,同样的消息路人和一个值得信赖的专家说出口,被关注的程度会有很大区别,一个平台如果能够建立被信赖的品牌,其输出的数据/信息往往能够产生更大价值,可以让数据的壁垒更牢靠。

下一篇: AI 产品的壁垒/竞争力是什么?→

Gitalking ...