您的位置首页  建站  经验

资本押注开源数据库项目背后,这是一个10年造就百亿美金独角兽的“快生意” ​

  • 来源:互联网
  • |
  • 2020-05-17
  • |
  • 0 条评论
  • |
  • |
  • T小字 T大字

成立至今,Zilliz 已获得来自云启资本 、晨兴资本等知名投资机构的上亿元投资,公司在 2019 年 10 月发布了一款开源向量搜索引擎 Milvus,6 个月时间里在全球积累了 200 多家企业级用户,用户社区里不乏像 WPS、贝壳、小米等行业代表性企业。

timg?image&quality=80&size=b9999_10000&sec=1589969102621&di=88ae76eac138a4ef6c85952cf05e6533&imgtype=0&src=http%3A%2F%2F5b0988e595225.cdn.sohucs.com%2Fimages%2F20190603%2Ff38c6b7dbddd41a6a7a7a93fec55e3d7.jpeg

同时获得资本和大型企业用户的认可,这家年轻的公司有什么吸引人的特质?前不久,DeepTech 跟 Zilliz 创始人谢超聊了聊,从这家公司,到这个行业的未来。

归国创业

Zilliz 团队目前有 50 余人,公司创立的时候,加入的新成员都要选一个英雄作为花名,这也延续成了公司的一种文化,期望每位成员都具备独当一面的实力。谢超选择了漫威世界里的一个超级英雄、银河护卫队中的“星爵”,在他看来,银河护卫队成员虽没有爆表的超能力,但总能通过默契协作干成一件大事,而协作不仅是团队综合战斗力的保障,也符合开源技术的精神。在以往的报道中,他基本以星爵的名字出现,因此,本文也以此称呼他。

在创办 Zilliz 之前,星爵曾在国际软件巨头 Oracle(甲骨文公司)效力 6 年。

2009 年左右,数据库向云延伸已经成为一种可预见的技术趋势,在 Oracle 内部也计划打造一项全新的云原生数据库产品,星爵作为核心成员和奠基人之一参与到了这个项目的开发之中,最终的成果就是目前为开发者所熟知的 Oracle 12c。

Oracle 12 c 是一种针对云计算时代设计的多租户容器数据库(CDB),它的特性允许在其中创建并且维护多个可插拔数据库(PDB),每个 PDB 的数据和应用是相互独立的。在单独使用 PDB 时,与普通数据库无差异,这极大地简化了数据库整合到云的过程, 客户无需更改应用即可将多个数据库作为一个来管理,如此一来,这种数据库系统很快在业内得到普及应用。

 

图|Oracle 12 c 构架图(来源:eygle)

截止到 2019 年下半年,Oracle 12c 产品已经累计为甲骨文创造了超过 50 亿美金的营收,从公司战略和商业层面来讲,这都是一种成功。

星爵回忆起这段在老东家的“战绩”,依旧十分兴奋:“我觉得在 Oracle 的工作给了我很多的经验跟启发,让自己成长了不少,比如打造世界上最复杂的一个数据库系统,该怎样去拆解、去解决问题、去迭代,然后在一个复杂的系统跟组织里面,怎样去协调一个很复杂的研发项目,更重要的是也看到了一些全新的思维方式,不管是技术的趋势,还是商业的趋势。”

在云计算普及之后,人工智能快速掀起了新的技术浪潮,而作为人工智能三大要素:数据、算法、算力之一的大数据管理和处理,迎来了新的挑战和需求,数据库系统和工具也需要同步革新,尤其是在 AI 产业快速增长的中国。

是的,智能时代的帷幕刚刚拉开,而我们现阶段对于数据价值的挖掘和效率却远远不够,急需更先进的数据系统工具,另一方面,边缘端的智能设备种类激增,数据类型也将日益庞杂,总是需要繁琐的加工处理后才能为 AI 所用。

在 Oracle 工作多年的的星爵自然也察觉到了这样的趋势,于是回国创办了 Zilliz,星爵给公司立下了一个愿景:重新定义数据科学

 

图|Zilliz 创始人星爵(来源:Zilliz)

“重新定义”

星爵表示,重新定义数据科学的愿景虽听上去口气比较大,但其实是很朴素的一个想法。

“重新定义”并不是要去定义什么概念,而是要真正从需求侧出发,发掘市场在不同阶段产生了什么样的新需求,发现这个需求之后,在当下的技术环境下能不能用更好的解决方案去满足这种需求。

具体到数据处理领域,发展历程已超过 70 年时间, 在不同的发展阶段,总是先产生不同的数据类型,后衍生出对数据的处理、分析方法以及基于数据处理构建起的商业生态

近年来,在 AI 技术浪潮的普及下,技术人员开始让机器模拟人类智能的一些特性,比如视觉和听觉,这在本质上就催生了对图片、视频、语音还有自然语言的理解等多维数据的分析和使用,这些原始抓取到的数据被称为非结构化数据,这些体量庞大的非结构化数据大约占到数据总量的 80%,如果能够被高效使用起来的话,会进一步推动智能化的发展。

此外,与 AI 并行发展的,还有 5G 和 IoT。5G 是 IoT 大爆发最核心的基础设施,人类社会数据的密度和产生的速度将会空前加速,IoT 设备将在各行各业无处不在,预计到 2025 年,全球会有超 1500 亿个联网的设备,平均到每个人会有 20 个左右,每个人的生活与数据密不可分,多种来源的 IoT 数据能够基于 5G 网络高速流通、汇聚、关联,包括从智能穿戴、智能手机、PC 到智能汽车、智能家居、智慧城市等各类传感器。

 

图|Milvus 整体架构(来源:Zilliz)

在星爵看来,过去 10 年以深度学习、机器学习等为代表的 AI 技术有了巨大提升,技术人员在算法端和模型端已经积累了很多对非结构化数据处理的经验和方式,现在最突出的一个矛盾在于 AI 是不够普及的,这也是 Milvus 向量搜索引擎以开源形式推出的原因,让大公司和中小型团队都能受益。

数据处理领域面临的另外一个挑战是在 AI、IoT、5G 技术交叉融合下异构计算的广泛应用。这意味着两个维度的“异构”,首先是多种异构处理器,可能包含 GPU、 CPU、 ARM 的芯片,也有 NPU、TPU 等智能芯片;其次就是整个应用部署的环境也是异构的,包括公有云、私有云、混合云、终端、边缘端各种综合的部署环境。

“我们当时在 2017 年开始投入研发的时候,发现在这样的异构计算兴起的潮流下,专门适配的数据搜索处理引擎跟平台都是没有的。如果要做后续更多的事情,只有我们自己去进行一个技术的突破,因此投入在 Milvus 向量搜索引擎方面的研发一下就做了两年时间,这是第一步,但也形成了我们很坚实的技术壁垒。在这样的引擎基础上我们才能进一步延展数据分析的能力、向量计算的能力、非结构化数据处理的能力,以及时空数据分析的能力等等。”星爵表示。

 

图|AI 搜索引擎处理非结构化数据的整体框架(来源:Zilliz)

在应用场景方面,星爵表示,Milvus 向量搜索引擎可具备很好的通用型,向量数据和 AI 的一些技术栈是天然对接比较好的部分,现在的深度学习的方式很多都是一种基于张量的方式,会把它要处理的非结构化数据,比如图片、视频、语音或文字等进行模型的加工之后生成一些向量化的数据。在很多的场景下,AI 其实最终是把这些非结构化数据向量化之后,直接在向量这个层次去进行操作,去进行搜索的。

比如现在的浏览器当中普遍有新闻资讯信息流推荐,假设有 20 万条内容,标题通过自然语言的模型进行处理之后,转成一个标题的语义的向量,然后可根据用户的搜索兴趣和阅读偏好进行千人千面的重新排序和推荐;比如在找房平台,也是类似于这种个性化推荐,把房源信息向量化之后跟用户的搜索需求进行匹配和推荐;在计算机视觉方向,可以将原始的图片或视频流截取关键帧之后,抽取成向量数据,最简单的应用例如在线下看到一个商品我们拍张照片,在购物网站上用这个照片搜索就能获取到这个商品的更多信息;在制药领域,比如辅助化合物的筛选和基因序列的比对;还有近年来越来越热门的时空大数据分析等等。

开源是笔“快生意”

尽管投入了不少的时间和研发成本,但为了让企业开发者能很快用起来,形成正向的需求反馈和迭代能力,星爵和团队还是选择了开源模式,他们认为打造事实的行业标准比急于短期内的商业变现显得更重要。

这句话的前半句由 Mosaic 浏览器、网景公司创始人、美国知名风险投资家马克 · 安德森(Marc Lowell Andreessen)在 2011 年提出,意思是说软件程序越来越成为硬件发展的重要驱动力,比如更流畅的操作系统、更丰富的软件应用都倒逼着硬件以更好的形态进行支持,怎么去操控和使用硬件,都需要软件系统来赋予一个硬件可用性。

最诱人的是,在开源赛道里,足以诞生百亿美元级别的公司。一个典型案例是在 2018 年 6 月,微软以 75 亿美元的价格收购 GitHub,这给予了开源项目巨大的肯定。

2019 年,GitHub 社区在全球已有超过 4000 万开发者用户,一年之内就有 1000 万新增开发者加入 GitHub。海量开发者在去年一年中,总共构建了 4400 万个代码仓库,其中深度学习、 机器学习、自然语言处理等 AI 主题的代码仓库热度飙升,而社区整体早已突破了 1 亿代码仓库的里程碑,AI 技术发展背后,开源是无形中的重要推动力。

星爵对 DeepTech 表示,开源正在从刚开始的一种技术自由民主的精神象征,越来越走向主流,会成为一个软件开发、软件协作和软件创新领域最常用的方式。在 GitHub 社区中,来自中国的开发者在过去 12 个月里增长了 37%,贡献了 500 多万个开源项目,预计在未来的 5 年,中国会超过美国成为社区中的第一大开源力量。

 

图|美国之外,2019 年来自中国的开源力量在 GitHub 上保持着最高的增长状态(来源:GitHub)

把代码开源后,需求问题就解决了。用户在免费尝试的过程中,会提出各种升级需求,这让开源软件形成一个很好的开发流程滚动,此外,这也是一种很高效的营销模式,极大降低了用户早期的采用成本;从另一个维度讲,因为开放,用户方对开源厂家的技术水平和能力可以有个客观评价,如果使用体验比较好话,用户会自主进行口碑传播,也不需要去做营销广告,自己讲自己的软件产品如何好,在开发者圈内会形成一个很民主的评判。

很多的开源软件到了一定的使用规模,或者说有一些企业客户用的一款开源软件用到了比较大的量级,会产生了一个真正的关键路径依赖,之后会主动找到开源原厂沟通合作,以寻求更全面的技术支持,比如提出企业版本、云版本的软件,并有一个很好的付费意愿。

“开源项目的最终商业变现一定是件水到渠成的事,用一句话总结就是,它可以在技术领域给创新创业公司一个多倍的杠杆,去撬动整个软件世界。”星爵说道。

1、开发人员的技术素质和水平,需要精兵强将,开源是没有国界的,只有全球领先的概念,不存在区域领先,所以需要一个开发团队有能力拿出世界领先水平的优秀产品,产品能扎扎实实地解决行业的痛点;

2、团队要有利他主义的开放精神,先为客户创造价值,在这个过程中有一个更好的提升,最终收获一份价值;

3、找准一个好的方向,了解什么项目适合开源什么项目不适合开源,一般来讲的话,开源项目要面对一个足够大的市场,这意味着可能需要开发一个基础型的软件或者说一个平台型的软件,能够做到各行各业的通用性;

4、持续不断的技术社区运营,技术社区运营至少占到一个开源项目成功因素的 40%;

而提到 “多倍杠杆” 的概念,在国外已有不少参考案例,开源项目在前期的 5~6 年可能完全是投入根本不赚钱,但如果能走到后期成功地把技术在某领域做到了领先,成为行业的技术标准,被用户广泛采用之后,后期的商业化爆发力是惊人的,可能一年就能翻 3-4 倍,市场估值也非常可观,这也是很多投资机构近年来开始密切关注开源项目投资的原因,放长线钓大鱼。

星爵介绍,以 Apache 上的顶级开源项目 Spark 为例,这是 2008 年开始开源的一个项目,背后的运营公司是 Databricks,目前该项目在一级市市场的估值已高达 62 亿美元,该公司在 2018 年大概实现了 1.2 亿美金的营收,到 2019 年直接增长到 2.6 亿美金的营收规模,增长速度十分迅猛。

如果从一个企业发展的周期来看,在开源软件赛道里面,这已经是一笔快生意,为什么这么说呢?

第一,市面上其实很少有公司能做到 100 亿美金左右的价值规模,但在全球开源软件领域已有很多案例,基本都是在 8-10 年间就做到百亿美元的规模,这速度已经很快了;第二,很多 toC 的项目想要打造一家百亿美元级别的公司,前期可能就要烧掉 40 亿~ 50 亿美元,通过大范围的补贴、推广,去抢占市场份额。

但是像 MongoDB,一个分布式的基于文件结构的数据库,通过做开源数据库项目 2017 年上市后市值达 101.60 亿美元,这家公司上市前的私募股权融资总额不过 2 亿多美金;另一家开源软件公司 Elastic 在 2018 年上市,目前市值为 58.61 亿美元,上市前只融了 1.5 亿美金。

 

图|计算机编程代码(来源:pexels)

非零和游戏

既然开源数据库软件赛道这么好,那接下来这个领域会有激烈竞争么?

星爵认为,开源相对于传统的软件经营模式,更多的是协作关系,大家互为补充,共同发展生态把蛋糕做大,这不是一个固定的有限竞争中的零和游戏,数据价值的挖掘和软件的渗透率还很低,还有更多市场需求等待满足。

全球的数据分析、数据处理软件,数据库产品,包括对结构化、非结构化、半结构化处理的方案,对于分布式数据库的方案,整体的市场大盘是在不断的增长的,诸如 Oracle 这样的企业软件公司经过了 50 年的发展,还保持着可观的增长,尤其是进入云计算、AI、5G 时代,数据的增速非常快,大家本质上都是要去拓展数据处理的边界,为各行各业更好的提供数字化转型升级和赋能,这是一个无限的开放市场,每一个公司能把自己聚焦的技术领域做好,都会有一个很好的成长空间。

从更宏观的层面来看,星爵对中国的开源软件市场保持着十分乐观的看法。

他认为中国以后一定会成为全球第一大经济体,在这样的背景之下,中国的 IT 和信息化也大概率会成为全球的第一大市场,这个节点可能发生在未来 10 年、20 年也可能是 30 年之后,但其趋势不可阻挡。现在的中国有更多的工程师、更多的开发者,中国的开源项目势力在世界上会产生越来越大的影响,包括 AI 的应用、5G 的技术研发和部署、物联网的普及等等。

就像美国上个世纪成为全球第一大 IT 市场后诞生了像微软、IBM、Oracle 等科技巨头一样,中国正走在类似的发展轨迹上,且这次的技术浪潮更为汹涌。

“在未来中国的技术土壤之上成长起来全球一流的开发人员和软件公司,这是一个历史的必然规律和潮流。”星爵最后说道。

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186
  • 标签:黑暗之魂3捏脸数据
  • 编辑:宋智孝
  • 相关文章