数据架构是不是玄学

2020-08-31新闻20

创造生命力

在数据这个领域，有个特别有意思的事情，一说“数据架构师”，要么被误解是Hadoop系统架构，要么被很多数据科学同学说“忽悠”、不落地，不仅是小同学，甚至很多高管也这么觉得。

今天在地铁看《中国文化概论》，聊到汉字发展的规律和趋势时，突然感觉我们在做的事情，虽然领域不同，但事儿是很像的，架构并不是一门玄学：

一件事情，刚开始的发端是自发的，若持续无序、随意的发展，其结局要么崩溃，要么被抛弃。

所谓架构，就是要找到其生命力的内核，通过识别主要矛盾，设计、迭代生成模式保持其生命力，定义创造、使用规范等完成系统化工作，从而使这件事情科学、有序的发展壮大。

举3个非常有意义的案例：

【汉字系统】

当图画文字和龟甲、石器刻符演变为记词字符，汉字由零散的、个体的字符逐渐积累，达到一定的数量后，再通过人为规范，就成为一种文字体系；

汉字一直顽强的坚持『表意特点』，不断采用新的方式、增强个体符型和整个符号系统的表意功能；

汉字在「易写」与「易识」的矛盾中，不断对个体符形进行调整，以实现简繁适度的优化造型；

汉字在发展中不断完善和简化自己的构型体系，以解决字形无限增加致使符形量超过人们有限的记忆能力的问题，汉字必须在对构件进行规整的前提下，形成一个严密的构形系统；

汉字必须在自行发展的基础上进行人为的规范。

【IP知识图谱】

这是我们数据科学团队，近期的一个代表性数据作品，在DMP/CDP为代表的MarTech领域，有大量的数据标签需求：

从早期的年龄/性别/地域等用户属性标签，到后来的品类浏览行为/兴趣偏好等行为偏好类标签，标签早已从个位数，逐渐积累过万，看似蓬勃发展，但无论客户侧、技术侧、还是用户侧，早已感受到了效果停滞不前，甚至有鸡肋的感觉；

从「标签」->「知识」，我们期望通过识别主要矛盾，和更优雅的表达形式，为数据带来更长久的生命力；

「知识」：是一个非常宽泛的概念，我们聚焦在一个垂直的领域「IP知识」，尝试做一些创新和改革。

在这个领域，我们尝试定义「知识」，包括《这就是街舞》、《阿凡达》等entity节点，「电影」、「明星」、「渠道」等Concept节点、<人的年龄>、<电影的题材>等Attribute节点及与节点的isA关系、<徐峥，这就是药神，出演>等领域特有的Relation；

也尝试设计知识生产系统，解决“成本&滞后”、“不够智能”、“开放生产力不够”3个主要矛盾，整个知识生产系统，包括Model的定义、以及在此Model上的原生知识抽取、概念生成、及自定义生产能力，再后边就是配套的知识生产和使用引擎，以及在此之上配套的可视化交互体系；

最后再说一个，特别敬服的案例

【xxx-数据之美】

隐私保护的问题，用xxx代替，是一个SaaS产品的VI设计案例，围绕行业、产品理念及设计师自身的理念，结合中国传统文化的「北冥有鱼，其名为鲲」，以高度统一的文化内涵，给出了完善的logo、标准色/字等视觉表达体系。