自动版本控制,让数据科学团队运行得心应手

来源：版本控制时间：2022/8/13

全文共字，预计学习时长6分钟

图片来源：pexels

研究数据科学最赞的一部分在于能够从头到尾经历一整个项目过程，从数据清理到数据可视化，再到特征构建，最后训练出一个机器学习模型。由于市场对拥有出色技能的数据科学家需求很大，因此数据科学家们能享有高薪水的待遇。

在整个项目开展过程中，最主要的挑战是团体。

目前，数据科学家们都以小组形式工作，每个小组至少有几个成员。小组中的每一个成员都在处理相同的数据，共享彼此的工作成果。

数据科学的不同组成部分

遗憾的是，数据科学团队成员经常在各自的数据竖井中工作。他们创建代码库，运行自己的JupyterNotebook，并将其可视化。成员们匆忙地把这些东西组合在一起，形成最终的报告。至少可以说，这是一个不太完美的协调。

但肯定有更好的选择。比如某种系统或工具，可以使数据和绘图的使用人员(数据科学家)高效地与团队其他成员一起工作，共享彼此的工作成果。这个系统还需要灵活变通、容易操作，并且保证数据科学的工作流程不中断。

下文将详细阐述该系统的具体应用。

Git如何为数据科学效力?

在传统的软件工程团队中，Git是用于编辑代码、组建项目、促进团队协作的常用工具。团队成员用的是他们自己的本地代码，但会使用同一个中央存储库来同步他们的进度和新开发。

该工具能确保每个人的项目进度都处于最新和同步的状态。这能让团队工作相互协调，不相互冲突，从而更高产。

Git流程。团队成员在他们自己的“特性（Feature）”分支上工作，然后这些“特性(Feature)”分支都同步到“开发(Develop)”分支中。一旦开发分支被很好地完善，代码的生产版本就会与主版本同步。

数据科学有点棘手，因为数据科学中的很大部分都是研究和软件工程的结合：

·数据本身很庞大，这会对共享存储存造成一定的挑战性。用Git-LFS会有所帮助，但是操作起来相当迟缓。

·大多数情况下，代码的更改是小幅度的调整，但是可视化之后看起来会很明显。Git不会显示提交过程中图形所做的更改。

·数据科学家通常使用Jupyter笔记本。在GitHub上可视化JupyterNotebook的变化内容，看起来很糟糕。因为它显示了.ipynb文件中的差异，但没有显示Notebook中有用图形的实际代码。

综上所述，下面开始了解出色的的数据科学版本控制系统到底具备什么样的特征。

首先，它需要具备易操作性。开发人员和后端工程师可能都会非常熟练地使用git，但是数据科学更倾向于研究而非工程，所以系统应该能够十分流畅的处理代码冲突。

其次，我们还