▲ 图片来源:Getty images
在“哈利.波特”的世界中,分院帽是一种算法,可以获得学生的行为历史、喜好和性格等方面的数据,然后据此作出决定,确定学生应该进入霍格沃茨学校里的哪一个分院。如果现实世界里存在这样的分院帽的话,它应该会是机器学习应用程序,可以根据复杂的数据集自主地做出决策。如今,机器学习正在推动数万亿规模的全球产业,例如医疗保健、安全和农业等。
如果机器学习有望创造可观的价值,那么问题来了:这些价值将在哪里产生呢?在本文中,笔者将介绍三种类型的公司创造并获取价值的方式:应用机器学习的传统公司、构建无行业属性机器学习工具的公司以及构建垂直集成机器学习应用的公司。
机器学习不仅仅是科技巨头的游戏
脸书、亚马逊、苹果、网飞和谷歌在机器学习方面的创新广为人知,从新闻推送到推荐引擎不一而足,但是绝大部分人还没有意识到传统行业对机器学习的需求正在日益增长。预计到2023年,全球人工智能系统支出将达到980亿美元,比2019年支出规模的2.5倍还要多,其中金融服务,零售和汽车领域处于领先地位。
比如,掌管了超过7万亿美元资产的投资管理公司黑石(Blackrock)在2018年推出了几款机器学习支撑的ETF产品。而目前,机器学习也已经在医疗保健行业引发了广泛的关注,涉及医疗影像、诊断和药物发现的机器学习解决方案的预算有望在未来三年内达到100亿美元的规模。
在这些企业客户中,出现了三个广泛的客户群:软件工程师、数据科学家和业务分析师,业务分析师有时也被称为“公民数据科学家”。尽管业务分析师受过的技术培训水平较低,但是他们构成了一个庞大并且不断增长的用户群体,这个群体正在应用机器学习帮助他们的企业利用自身不断增长的数据存储库。
机器学习工具已经渗透进入各行各业
为了适应这些客户群体,希望在这轮淘金热中卖镐的公司数量不断激增。曾经在特斯拉和Snap担任过工程副总裁的Stuart Bowers表示:“挑战并不在于让机器学习变得透明,而是让痛苦的部分(例如日志记录、数据管理、部署和可再现性)变得容易,然后让模型训练变得高效并且可调试。”
作为销售更多基础架构服务策略的一部分,现存的供应商——特别是那些公有云供应商已经采用了“端到端平台”的方式。举例来说,AWS的机器学习平台Sagemaker最初是面向专家开发人员和数据科学家的,它最近推出了Sagemaker Studio,以将受众群体扩大到技术背景较弱的用户。对于像AWS这样的技术巨头来说,销售机器学习工具是一种推动其客户增加基础设施支出的方式,这意味着他们有能力以很低的成本提供这些工具。
独角兽们还经常会和云服务供应商合作创造价值。比如,Databricks就是一个机器学习平台,以强大的数据工程功能闻名,平台建立在Apache Spark的基础之上。该公司成立于2013年,如今价值62亿美元。DataBricks和微软之间的合作伙伴关系让微软的Azure能够处理更多的数据和计算,同时也极大地帮助DataBricks拓展了市场。
然而,企业从业人员们开始要求“同类最佳”解决方案,而不是那些意在吸引他们购买更多基础架构的工具。为了解决这个问题,下一代的创业企业将会追求更具针对性的方法。和当前各大现有平台广泛采用的模式相反,初创企业可以选择特定问题并开发专用工具,这样可以更有效地解决这些问题。在机器学习工具领域,现在存在着三大问题对用户构成了重大挑战。
数据集管理
虽然机器学习的结果可能看起来很优雅,但实际上,从业人员要将大部分的时间花在数据清理、整理和转换工作上。因为数据越来越多地以各种不同的格式分散在多台机器和云之中,因此将数据变成同一种可消费的格式,让团队能够轻松使用并且将其用于协作是非常困难的一件事。
为了解决这个问题,Tecton的联合创始人兼首席执行官Mike Del Balso正在通过他新的创业公司使他在Uber倡导的最佳实践民主化。他表示:“被破坏的数据是导致生产机器学习系统出现问题的最常见原因。建模人员将大部分时间都花在训练时选择和转换功能,然后建立管道,将这些功能传递到生产模型之中。” Tecton构建了一个平台来管理这些“功能”,并以这种方式来简化数据层的复杂性,从企业原始数据中收集到的智能实时信号对于优化机器学习至关重要。
在更上游,Liquidata正在为数据库构建开源的GitHub等效项。在我与Liquidata的联合创始人兼首席执行官Tim Sehn(他曾经是Snap的前工程副总裁)的谈话中,他强调“就像开源软件一样,我们需要在开放数据方面进行协作——在互联网级别。这就是为什么我们创建了DoltHub的原因,DoltHub是互联网上免费存储、托管和协作数据的地方。”
实验跟踪和版本控制
另一个常见的问题是结果之间缺乏可重复性。机器学习模型版本控制的缺位让实验变得很难复现。
正如Weights and Biases的联合创始人兼首席执行官Lukas Biewald在接受我们的采访时分享的那样,“如今,最大的痛苦是缺乏基本的软件和最佳实践来管理全新的编码风格。你无法使用糟糕的画笔很好地作画,你没有办法在糟糕的IDE(集成开发环境)中很好地编写代码,你也无法使用我们现在拥有的工具构建和部署很棒的深度学习模型。”他的公司于2018年推出了一个实验跟踪解决方案,让OpenAI等客户能够将见解从单个研究人员扩散到整个团队。
模型可扩展
对于这个正在成熟的市场来说或,建立基础架构以在生产中扩展模型部署并监控结果是另一个重要的问题。
Anyscale是开源框架Ray背后的公司,这家初创公司已经抽象出了分布式应用程序和可扩展机器学习的基础架构。在我同Anyscale的联合创始人兼首席执行官Robert Nishihara的交谈中,他分享了自己的想法,“就像微软的操作系统为开发人员工具和应用程序创造了一个生态系统一样,我们也在创造基础架构,以支持应用程序和库的富生态系统,从模型训练到部署,让开发人员可以轻松地扩展机器学习应用程序。”
在自然语言处理或者被称为NLP的领域中,可扩展性也在飞速发展。Hugging Face建立了一个开源库来构建、训练和共享NLP模型。该公司的联合创始人兼首席执行官ClémentDelangue表示:“过去三年中发生了范式转变,NLP的转换学习开始极大地改变了将NLP集成到业务应用程序中的可用性和准确性。”他表示:“我们让企业有可能在一周而不是几个月之内,将最新研究的NLP模型应用于生产。”
其他有前途的初创公司包括Streamlit,该公司让开发人员可以仅仅使用几行Python就创建机器学习应用并立刻进行部署。OctoML为机器学习应用了附加的智能层,是系统变得更加易于优化和部署。Fiddler Labs已经建立了Explainable AI Platform(可解释的人工智能平台),可以不间断地解释和监控生产结果。
要想在与老牌公司的激烈竞争中建立起长期稳固的公司,初创公司必须问自己两个问题:对于哪些客户来说我们是必不可少的?接触这些客户的最佳方式是什么?
很多初创公司会提出想法,要在某个大市场中占据1%的份额,但是通常来说,这些大市场就算没有过度拥挤,其中的需求也已经得到了很好地满足。专注于赢得核心客户群的公司必须展现出强大的早期吸引力,这将转化为长期扩展潜力。为了吸引这些客户,Databricks和Datarobot等大多数成型企业都采用了自上而下的企业销售方式。与我们在开发人员工具领域中看到的情况类似,我期待着机器学习初创企业最终将从单纯的企业销售发展为推动自下而上的采用,并获得更多优势,胜过当今以企业为中心的成型公司。
垂直集成的机器学习应用程序正在颠覆现状
机器学习领域中一些最令人兴奋的公司正在开拓新的商业模式以颠覆整个行业。汽车行业就是个最明显的例子,仅仅在2019年一年,就有100亿美元的资金投入到了这个行业。机器学习也将产生革命性影响的下一代垂直市场还包括医疗保健、工业、安全和农业。
Salesforce的首席科学家Richard Socher表示:“在‘机器学习+X’的模式下,机器学习最为有效。”他表示,“最好的机器学习公司都有着清晰的垂直重点。他们甚至不会将自己定义为机器学习公司。”他认为医疗保健领域是一个非常独特的领域,极有前途:Athelas已将机器学习应用于免疫监测,通过收集病人白血球数量的数据帮助他们优化药物摄入。Curai利用机器学习技术来提高医生推荐的效率和质量,让他们可以把更多的时间花在治疗患者的工作上。Zebra和AIdoc通过训练数据集来更快地确定医疗状况,从而提高了放射科医生的工作能力。
在工业和物流领域,Covariant是一家结合了强化学习和神经网络的初创公司,该公司让机器人能够管理大型仓库设施中的物体;Agility and Dexterity同样在构建机器人,以越来越复杂的方式适应各种不可预测的情况;Interos应用机器学习技术评估全球供应链网络,帮助企业围绕供应商管理、业务连续性和风险做出关键决策。
在安全和国防领域,Verkada通过智能地分析实时视频并从中学习,重新构想了企业物理安全;Anduril建立了一个机器学习主干,该主干可以集成来自传感器塔的数据,以增强国家安全的智能;Shield AI的软件让无人系统可以解释信号,并且在战场上智能行动。
农业是另一个从机器学习技术中获得巨大收益的垂直领域。John Deere收购了Blue River Technology,后者是一家开发智能农作物喷洒设备的初创公司。合并后的公司Intelligent Solutions Group的首席科学家Lee Redden表示:“我们引入计算机视觉技术来识别单株植物并针对单株植物采取行动,通过这种方式改变了农业世界。”其他著名的农科企业还包括Indigo,该公司将机器学习用于“精准农业”,利用数据,以更有利可图、更具可持续性的方式生产食品。
我们将何去何从?
总结来说,机器学习已经悄然成为我们日常生活的一部分,支撑我们的汽车,医院的运营并保障我们所吃的食物。到目前为止,大型企业孵化了最先进的技术,但是真正的希望存在于下一波机器学习应用程序和工具,将围绕着机器智能各种华而不实的炒作从哈利.波特式的幻想转化为有形的社会价值。
对于机器学习能够在未来几年内创造的价值,我们有很多理由保持乐观。传统企业将训练数以百万计的公民数据科学家,将破碎的行业重塑为更高效的行业。机器学习工具将降低构建智能应用程序的门槛,推动数以百万计的新想法变成产品。垂直机器学习业务模型将让人们获得健康的食品,可靠的人身安全保障和负担得起的医疗保健服务,这是一个民主化的进程。
我们将在这些地方找到机器学习的真正价值。