ZKX's LAB

数据架构是不是玄学

2020-08-31新闻15

创造生命力

在数据这个领域,有个特别有意思的事情,一说“数据架构师”,要么被误解是Hadoop系统架构,要么被很多数据科学同学说“忽悠”、不落地,不仅是小同学,甚至很多高管也这么觉得。

今天在地铁看《中国文化概论》,聊到汉字发展的规律和趋势时,突然感觉我们在做的事情,虽然领域不同,但事儿是很像的,架构并不是一门玄学:

一件事情,刚开始的发端是自发的,若持续无序、随意的发展,其结局要么崩溃,要么被抛弃。

所谓架构,就是要找到其生命力的内核,通过识别主要矛盾,设计、迭代生成模式保持其生命力,定义创造、使用规范等完成系统化工作,从而使这件事情科学、有序的发展壮大。

举3个非常有意义的案例:

【汉字系统】

当图画文字和龟甲、石器刻符演变为记词字符,汉字由零散的、个体的字符逐渐积累,达到一定的数量后,再通过人为规范,就成为一种文字体系;

汉字一直顽强的坚持『表意特点』,不断采用新的方式、增强个体符型和整个符号系统的表意功能;

汉字在「易写」与「易识」的矛盾中,不断对个体符形进行调整,以实现简繁适度的优化造型;

汉字在发展中不断完善和简化自己的构型体系,以解决字形无限增加致使符形量超过人们有限的记忆能力的问题,汉字必须在对构件进行规整的前提下,形成一个严密的构形系统;

汉字必须在自行发展的基础上进行人为的规范。

【IP知识图谱】

这是我们数据科学团队,近期的一个代表性数据作品,在DMP/CDP为代表的MarTech领域,有大量的数据标签需求:

从早期的年龄/性别/地域等用户属性标签,到后来的品类浏览行为/兴趣偏好等行为偏好类标签,标签早已从个位数,逐渐积累过万,看似蓬勃发展,但无论客户侧、技术侧、还是用户侧,早已感受到了效果停滞不前,甚至有鸡肋的感觉;

从「标签」->「知识」,我们期望通过识别主要矛盾,和更优雅的表达形式,为数据带来更长久的生命力;

「知识」:是一个非常宽泛的概念,我们聚焦在一个垂直的领域「IP知识」,尝试做一些创新和改革。

在这个领域,我们尝试定义「知识」,包括《这就是街舞》、《阿凡达》等entity节点,「电影」、「明星」、「渠道」等Concept节点、<人的年龄>、<电影的题材>等Attribute节点及与节点的isA关系、<徐峥,这就是药神,出演>等领域特有的Relation;

也尝试设计知识生产系统,解决“成本&滞后”、“不够智能”、“开放生产力不够”3个主要矛盾,整个知识生产系统,包括Model的定义、以及在此Model上的原生知识抽取、概念生成、及自定义生产能力,再后边就是配套的知识生产和使用引擎,以及在此之上配套的可视化交互体系;

最后再说一个,特别敬服的案例

【xxx-数据之美】

隐私保护的问题,用xxx代替,是一个SaaS产品的VI设计案例,围绕行业、产品理念及设计师自身的理念,结合中国传统文化的「北冥有鱼,其名为鲲」,以高度统一的文化内涵,给出了完善的logo、标准色/字等视觉表达体系。

#技术编程

随机阅读

qrcode
访问手机版