数据产权问题再思考

文章正文
发布时间:2018-05-09 19:47

数据产权问题再思考

2018-05-09 17:26来源:经济观察报产权/隐私

原标题:数据产权问题再思考

(图片来源:全景视觉)

经济观察报 陈永伟/文 人类文明的每一个阶段都有自己的关键性资源——19世纪是固态的煤炭、20世纪是液态的石油,而到了21世纪,最关键的资源恐怕非无形的数据莫属。

在数字经济时代,企业需要借助大数据挖掘消费者偏好、安排生产决策;消费者需要借助大数据进行消费和储蓄的安排;政府也需要借助大数据制定相关政策。在所有这些过程中,数据所带来的效率改善和价值提升都是绝对不能忽视的,从某种意义上说,数据对现代经济发展所起的作用或许已经超过了煤炭和石油。

随着数据价值的日益凸显,围绕数据的纷争也开始不断增多。Linkedin与hiQ之间的诉讼、顺丰与菜鸟对于物流数据的争夺、华为和微信之间的数据搜集之争,还有最近的Facebook数据泄露……所有的这些热门事件,都指向了一个核心的问题——即应该如何界定和保护数据的产权。

所谓产权,指的是“一种通过社会执行而实现的对某种经济物品的多种用途进行选择的权利”。与所有权不同,产权并不是绝对的、普遍的,而是一种相对的权利,它是不同的所有权主体在交易中形成的权利关系。在构成上,产权这个概念事实上包含了“一组权利”(a bundle of rights),包括使用权、排他权、处置权等,它们可能属于同一个主体,也可能分属于不同的主体。由于产权强调的是“社会执行”,因此要维护产权不仅需要有健全的法律法规,还需要与之适应的社会观念和物质保障。

可能是因为数据市场发展实在太快了,所以无论从世界范围还是中国范围看,与数据相关的产权体系建设都相对滞后。不仅相关的法律缺位比较严重,思想上的认同更是难以达成。而要完成这个体系的建设,恐怕需要各路专家、各界人士的通力合作,绝非一朝一夕可成之功。在此,我不想对数据产权问题进行完整的探讨,只想就其中的几个问题进行一些思考,希望可以对数据产权体系的建设有所助益。

一、将数据产权划分给搜集数据的企业会更有效率

随着技术的发展,我们的生活正在变得越来越“数字化”,我们的任何行动都有可能随时被记录下来。例如,当我们上网购物时,购物习惯可能会被记录;当我们用App打车,地理和轨迹信息可能会被记录;当我们用即时通信工具进行交流,发出的文字和图片也可能被记录……通过整理,这些记录可以转化为大量的数据。

那么,这些数据的产权应该归谁所有?在产生数据的用户和搜集数据的企业之间,谁有权决定这些数据如何使用?谁又应该获得这些数据所产生的收益?显然,答案取决于标准的选择。而如果我们采用经济学中常用的社会福利最大化这个标准,那么让企业获得相关的数据产权就是更好的答案。

为什么这么说呢?原因主要有两个:

首先,当承认数据搜集者对数据的产权后,才能激励其更好地搜集、使用数据。与很多人的直观认识不同,搜集和使用数据不仅不是免费的,其成本还高得惊人。尽管用户的各种行为很容易被记录,但正如未经加工的原油不能用来作为燃料一样,这些原始的记录很难被直接用于分析,甚至很难被用于机器学习。要将这些记录变成可用的数据,需要对其进行重新标注、编码。事实上,很多数据驱动的大公司都投入了大量的人力和物力来进行这项工作。以亚马逊为例,其通过外包雇佣的数据标注师数量高达50万,仅支付这批人的工资就是一笔不菲的开支。在数据被标注、整理后,对其进行储存又需要大量的成本。尽管随着技术的进步,电脑硬盘的价格已经极速下降,但要存放数以P计(1P=1024T,1T=1024G)的数据,其需要的成本依然是惊人的。数据本身并不等于信息,在获取了数据后,分析数据、挖掘数据背后的信息还需要很大的投入,会产生很大的成本。此外,要维护数据安全、防止数据泄露,也需要很多费用。如果不承认企业对数据的产权,那么这些成本就很难被弥补,企业也就失去了搜集数据、分析数据,并用数据改进服务质量的积极性。

其次,只有承认企业对数据的产权,才能有效发挥数据的规模经济(economics of scale)和范围经济(economics of scope)。数据的分析价值,只有当其数量很大、维度很多时才能充分展露出来。举个例子,如果你只知道一个人叫“张三”,那么这个信息是毫无意义的。而如果你拥有了全国居民的统计资料后,你就可以挖掘出姓名与收入、教育程度、家庭背景等变量之间的微妙联系,这样当你再看到“张三”这个名字时,就可以对其有一个大致的画像了(事实上,美国经济学家、《魔鬼经济学》的作者斯蒂文·列维特就做过这方面的研究)。

一般来说,每个个人拥有的个人数据不仅在数量上很少,在维度上也不多,因此对其本人的作用并不会很大。但如果这些数据由企业拥有,情况就完全不同了。相比之下,企业使用的数据不仅量更大、来源更广,维度也会更为多样。这样的数据使用能够帮助企业挖掘出丰富的信息,从而创造出巨大的价值。

二、不能因重视隐私而否定企业对数据的产权

有人认为,允许数据搜集者拥有对数据产权的一个危险是可能会侵犯用户的个人隐私。尤其是在Face-book的信息泄露事件发生后,这种观点开始扩散,甚至影响到了不少国家的政策制定部门。

针对这点,我认为应当对隐私一词的含义进行深刻解读。必须认识到,隐私这个概念其实是有边界的,不应该将其泛化。

美国隐私保护专家、前白宫首席信息官特蕾莎·佩顿在《大数据时代的隐私》一书中曾提出过一个同心圆模型。她认为,隐私通常指与公共利益无关的个人私生活秘密方面的事宜,包括个人数据、个人行为以及附属于个人的空间领域等。隐私是以个体为中心的同心圆,越接近圆心越是不愿意让渡的隐私。在同心圆扩大半径的外围,个体产生交集,也产生了隐私的交换,并以此获得友谊、亲情、理解,甚至经济利益。

至于这一系列同心圆之间的边界如何变化,其实是一个历史的概念。在各个时代,人们对哪些个人信息可以与别人分享、哪些个人信息不可以与别人分享,认识是完全不同的。在古代,个人应对各种自然和社会风险的力量较小,需要相互抱团,自然放弃隐私,也无所谓隐私权。然而,随着生产力的进步,个人应对各类风险的能力上升了,人与人之间的合作不像以前那么重要了。在这种背景下,人们才开始重视隐私。

而在互联网时代,人们用信息可以换取的经济利益增多,因此被视为不可侵犯的那部分范围可能会变得更小。事实上,正如纽约大学教授艾宁德亚·高斯在其畅销书《点击》中所讲的那样,越来越多的人正在习惯于将个人信息当成货币——向企业出让自己的信息,以换取其更好的服务。有趣的是,这些“货币”的拥有者本人似乎对它们的估价并不高。斯坦佛大学的经济学教授苏珊·埃塞曾做过一项实验,用一定的代价来换取被试的个人信息。结果发现,即使是那些声称自己很在乎个人隐私的被试者,也会为了很小的代价而出让自己的大量信息。

需要注意的是,不同的人对隐私的认识是截然不同的,那些敏感的人会将隐私的边界扩得很大,从而将很多别人乐于公开的信息都视为神圣不可侵犯。这些人的权益当然应该尊重,但也不能因此而剥夺了另一些人希望用个人信息换取服务和便利的权利。如果以此为由,禁止企业搜集和使用数据,那不仅不利于数据产业的发展,也会有损众多消费者的福利。

事实上,经济学的知识告诉我们,在理想的状况下,市场上完全可以出现多类企业,分别满足不同人的需求——对那些更重视隐私的人,它们会搜集更少的信息,但也会提供更少的个性化服务;而对那些相对不重视隐私的人,它们则会搜集更多信息、提供更多个性化服务。但遗憾的是,这种美好的情况可能被“信息不对称”破坏。在很多情况下,人们拒绝用自己的信息换服务并不是由于不愿意,而是由于不知道企业搜集了数据后究竟会用它们做什么。在实践中,与其制定一个统一、严格的数据搜集标准,不如多花力气去解决用户与企业之间在数据搜集上的信息不对称问题。

三、不能因对“数据垄断”的恐惧而否定企业对数据的产权

一些人认为,如果承认了数据搜集者对数据的产权,很可能会导致数据垄断问题的出现。原因很简单:各个企业搜集数据的能力是不同的,像腾讯、阿里这类的互联网巨头,由于客户群体庞大、技术实力雄厚,因此其搜集数据的能力也将远远超过小企业。在这种背景下,这些公司可能形成数据垄断,从而造成恶劣的后果。

那么,这种观点是否正确呢?在我看来,答案应该是否定的。

首先,要形成数据垄断绝非易事。和所有其他的商品一样,一个企业能否垄断数据资源,主要取决于这些数据的可替代性。如果这些数据是难以被替代的,那么它就可能被垄断;而如果这些数据容易被替代,那么它就难以被垄断。在现实中,数据资源的可替代程度究竟如何呢?有研究表明,数据的可替代程度其实是比较强的。在大数据环境下,很多数据其实可以通过别的维度的数据推断出来。例如,我可以不知道一个人住在哪儿,但是可以通过观察他每天的行动轨迹来判断他的住处。从这个意义上讲,即使有某个企业独家拥有了关于住处的信息,也无法形成垄断。

其次,即使企业垄断了数据,也未必会带来实质性的损害。我们不喜欢垄断,并不是不喜欢垄断本身,而是不喜欢由其造成的效率损失和对竞争的破坏。那么当一个企业垄断了数据后,它能做出什么“坏事”呢?一个最直观的答案是进行价格歧视,但关于这一点,还需要更为理性地加以看待。当企业拥有了更充分的数据后,就可以更好地对不同人征收不同价格,从而获取更多的消费者剩余,这似乎是让消费者的境况变差了。但事实上,企业争夺的这块消费者剩余本来就可能是它所创造出来的——由于掌握了更多的数据,它可以更好地掌握消费者的偏好,从而根据消费者的口味推荐合适的产品。在这个过程中,尽管企业赚得更多了,但消费者的福利并没有损失,甚至还可能改善了。

综合以上两点,我认为以数据垄断为由来否定企业对数据的产权也是不合适的。

四、要重视数据产权的界定,也要重视数据产权的保护方式

产权到底划分给谁,这很重要,但同时产权究竟应该通过什么方式来进行保护,也很重要。法律经济学大师圭多·卡拉布雷西曾经提出过产权保护的三种规则:财产规则(Prop-erty Rule)、责任规则(Liability Rule)和不可转让性(Inalienability)。所谓财产规则,指的是除非产权持有人自愿转让,否则不得强制转让产权,并且转让的价格由交易双方协商决定。所谓责任规则,指的是非产权持有者可以不经过产权持有者的同意,先使用物品,然后支付其一个由第三方认可的公平的价格。而所谓不可转让性,指的则是即使拥有产权,也不能对物品随意转让。

在其经典论文中,卡拉布雷西曾对三种原则的适用进行过深入的讨论。在他看来,如果市场上的交易成本很低,那么财产规则是更有效率的,通过自愿谈判,交易的各方都会更加满意。而如果市场上的交易成本很高,那么财产规则就可能没有效率,而责任规则相比之下则更好。当然,无论是财产规则还是责任规则,都是针对在交易中不产生很大外部性的物品而言的。如果交易会产生很大的外部性,那么即使对于产权所有者,也没有权利进行交易,此时产权应该满足不可转让性。举例来说,一个人的身体是自己的,但卖淫是不合法的,这就是不可转让性提出的要求。

卡拉布雷西的这三个原则在现实中很有用处,尤其是在知识产权领域有很多应用。与之类似的,也可以用这些原则来对数据产权问题的保护进行思考。假设我们已经按照效率的标准把数据的产权划分给了企业,那么对隐私权和垄断的担忧就是这种界定方法所带来的成本。但其实这些问题完全可以用产权保护原则来进行克服。

从经济学角度看,人们对于隐私权的忧虑源于一些隐私数据的交易所产生的外部性。根据卡拉布雷西的理论,在这种情况下,我们应该对数据用“不可转让性”来进行保护。也就是说,尽管数据的产权属于企业,但是对于那些十分敏感隐私,可能造成重大负面影响的数据,企业除了自行使用它们来进行研究外,没有权利将其转给其他人。

再看数据垄断问题。为什么人们会担心数据被垄断?一个原因就在于怕企业独霸数据,不把它们开放给其他更需要的使用者。从理论上讲,使用者可以向平台进行申请,从而获得数据的使用权,但现实中,这样的交易成本会很高——由于交易双方对于数据价值的判断不同,所以谈判可能会非常艰难。在这种情况下,自愿的交易就很可能达不到有效率的配置。如果根据责任规则,允许数据使用者先使用数据,然后再根据第三方的估价让数据使用者向企业支付价格,那就会让效率得到提升。从这个角度上看,对于一般的、非敏感数据采用责任规则是更为合适的。

五、用“治理科技”(Goventech)破解数据产权界定中的技术难题

技术的发展对于产权的界定和保护具有关键作用。正是铁丝网的出现,促进了19世纪美国西部土地产权的界定,同样的道理,界定数据产权也不能离开技术的帮助。

目前,界定数据产权的一大难题在于数据可以被反复复制和使用,因此数据一旦流出,其传播和使用将难以被控制。以Facebook事件为例:当Facebook方面发现科根搜集数据的行为后,曾对其进行过警告,但在科根表示自己只将数据用于学术研究后,就停止了对其的关注。然而,Facebook事实上无法辨别科根承诺的真实性,也无法监控这些数据的去向,这才引发了后来的问题。

要解决类似的问题,必须强调科技的重要性。我们现在经常提fin-tech、regtech,我觉得还应该提一个goventech,也就是平台在治理过程中使用的数据,这一点在数据治理过程中十分重要。以防止数据被再次复制、传播为例,现在的区块链等新技术可以帮助应对这一难题。区块链具有可追踪的特性,借助这一特性,人们可以知道数据是否曾被使用、曾被谁使用、用于什么用途,从而更有效地对数据进行管理。用对、用好这些新技术,或许能让我们更为有效地界定和保护数据产权。

(作者系北京大学市场与网络经济研究中心研究员)返回搜狐,查看更多

责任编辑:

声明:本文由入驻搜狐号的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。

阅读 ()

文章评论
—— 标签 ——
首页
评论
分享
Top