全文共字,预计学习时长8分钟
图源:unsplash最近与同事的一段对话让我陷入思考。公司会议上同事问我:“是否要使用某种数据版本控制?”我以为他是在说代码版本控制,但“不是,是数据版本控制”,我的同事坚持说。
我未曾听过或想过数据版本控制,是否有提供数据版本控制的产品?推出这些产品是否有必要呢?
我在谷歌上搜索到许多数据版本控制产品,但最吸引我眼球的产品是dolt。
什么是dolt?
Dolt是SQL数据库中数据体验的真正Git,为模式提供版本控制,并为数据提供单元级版本控制,这些都为了便于协作而不断优化。
使用Dolt可以查看上次接收的数据与这次接收的数据之间可读的diff区别。在部署新数据之前,可以很容易发现意外更新,并且修复问题。
作者们称这就像是数据的Git,是一个开源的SQL数据库,且带有Git样式的版本控制。在处理数据科学项目时,我们会自己将数据集版本化。很多时候并记不清v5和v6有什么区别。将代码提交到存储库时,Dolt会存储提交日志,从而易于返回并查看更改。
在哪里托管存储库?
就像GitHub之于Git,DoltHub之于Dolt也是如此。Dolthub只对Dolthub上公开的数据集免费。托管私人存储库的价格为每月50美元。
图源:unsplash数据版本控制有哪些用例?
这也是我一直在问自己的问题。其指导性用例是在互联网上共享数据。Dolt可以用来共享数据库,包括模式和视图,可以删除用于传输数据的所有代码。
DoltHub的数据可以“先试后买”。人们可以在网页上运行SQL查询,查看数据是否符合需要。数据提供平台甚至可以构建示例查询来引导消费者的探索。通过提交日志,人们可以看到数据更新的频率,还可以看到谁更改了数据以及更改原因。
如何进行尝试?
图源:dolthubDoltHub是免费的公共数据集,可以用谷歌帐户登录。笔者创建了一个新的名为iris的公共存储库。
图片:带有iris数据集的Dolthub然后就可以像witGit一样克隆版本库——一切都很熟悉。但是,在克隆repo之前,需要安装doltCLI。开发人员考虑到这一点,所以把安装命令放在了克隆选项旁边。
sudocurl-L
转载请注明:http://www.0431gb208.com/sjslczl/1491.html