全文共字,预计学习时长5分钟
图片来源:Unsplash/HackCapital摄版本控制经验已逐渐成为所有数据科学家的必要能力。版本控制可以帮助数据科学家更好地做团队工作、促进项目协作、共享工作并帮助其他数据科学家重复相同或类似的过程。
即使是独立工作的数据科学家,在并入当前项目之前,能够先回滚更改或先对某个分支进行更改,并测试此更改不会终止任何项目内容也是非常有用的。
本文将介绍以下内容:
1.什么是Github?
2.为什么数据科学家需要使用Github?
3.创建知识库
4.分支
5.合并申请功能
1.什么是Github?
Github是最著名和最广泛使用的版本控制平台之一。GitHub使用一个名为Git的应用程序将版本控制应用于代码。项目文件被远程存储在一个被称为知识库(repository)的中心位置。每次在本地机器上进行更改并推送到Github时,远程版本都会被更新,并记录该提交的存储。如果要在提交之前回滚到项目的早期版本,则此次记录就可以让使用者执行此操作。
此外,由于项目文件是远程存储的,任何其他有访问权限的人都可以下载此文件并对项目进行更改。分支的概念,本质上意味着你对完全独立的项目做了一个临时的复制,它意味着你可以先在分支里进行更改,而不必担心终止任何东西。如果你正在做一个项目,而项目工作中的某个特性依赖于代码工作,那么这一点就尤其重要了。
2.为什么数据科学家需要使用Github?
数据科学家需要使用GitHub的原因与软件工程师的原因基本相同——为了协作、“安全”地对项目进行更改,以及随后的追踪和回滚更改。
传统上,数据科学家不必非要使用GitHub,因为在通常情况下,将模型投入项目的过程(在此过程中版本控制变得至关重要)会被移交给软件或数据工程团队。然而,系统中有一个日益增长的趋势,即让数据科学家更容易写出代码并将其运用到产品中——参见H20.ai和谷歌云人工智能平台(GoogleCloudAIPlatform)之类的工具。因此,数据科学家能熟练使用版本控制变得越来越重要。
3.创建知识库
图片来源:pexels.转载请注明:http://www.0431gb208.com/sjszlff/8428.html