【导读】 换屏后手机总自动重启怎么回事,下面是小编为你收集整理的,希望对你有帮助!自动重启一般分为三种原因,一种是硬件故障或者电池接触不良 ,一种是安装的软件有冲突,一种是运行程序或者缓存过多,可以通过以下方法解决:1、硬件故障或者电池接触不良,这个需要拿去售后检测或者更换电池。2......
发布时间0:2023-06-01 19:01:03
大数据文摘出品
编译:蒋晔、小七、蒋宝尚
这年头,如果你不会点儿R或者Python,你都不好意思说你是混数据圈的。
在你向一些大神请教的时候,他可能也会推荐你学习这两个高级编程语言,然后顺便在推荐你了解一下SQL以及Math。如果讲究点的,可能还会传授你一些Spark、AWS/云计算的经验。
嗯!差不多就这些了~
当前主流数据科学领域用的工具就是这些了。
但是,如果你想成为一个数据科学“英雄”,仅仅掌握一些主流的东西是不够的。
今天呢,文摘菌就给你推荐几个好用到爆的小工具~~
Linux
Linux名字应该是如雷贯耳了吧!但很多数据科学家对它的命令行并不熟悉。Bash脚本是计算机科学中最基本的工具,并且数据科学中很大一部分需要编程,因此这项技能至关重要。
我的Linux启动小企鹅
几乎可以肯定的是,你的代码会在linux上开发和部署,使用命令行完成一些工作是非常酷的。与数据科学一样,Python也无法独立于环境工作,并且你必须通过一些命令行界面来处理包、框架管理、环境变量、访问路径($PATH)等等。
Git
Git听名字,你也应该不陌生。大多数数据科学家对git似懂非懂。由于数据科学定义模糊,很多人都不遵循良好的软件开发实践。例如,有人甚至很长一段时间都不知道单元测试。
当你在团队中编码时,你就会知道git是很重要的。如果团队成员提交的代码发生冲突,你得知道如何处理。或者你需要挑选部分代码修复bug、更新……将代码提交到开源或私有的repo(如Github)时,你也可以使用Coveralls之类的东西进行代码测试,并且还有其他框架帮助你在提交时方便地将代码部署到生产中。
REST APIs
现在,你已经训练好了一个模型——然后该怎么办?没有人想看你的Jupyter notebook或者某种蹩脚的交互式shell脚本。此外,除非你在共享环境中进行训练,否则你的模型只能自己使用。仅仅拥有模型是不够的,而这正是大多数据科学家遇到困难的地方。
要从模型中获得实际的预测结果,最好通过标准API调用或开发可用的应用程序。像Amazon SageMaker这样的服务已经得到普及,因为它可以让你的模型和可用程序无缝衔接。
如果你功力深厚,当然你也可以使用Python中的Flask框架自己构建一个。
此外,在后端有许多Python包可进行API调用,因此了解API是什么以及如何在开发中使用API,这会让你有点儿与众不同。
Docker & Kubernetes
这两个工具棒极了。docker允许用户拥有一个生产就绪(production ready)的应用环境,而无需为每个在其上运行的单个服务集中配置生产服务器。与需要安装完整操作系统的虚拟机不同,docker容器在与主机相同的内核上运行,并且轻量得多。
想象一下像Python的venv这样的docker容器,有更多功能。 更高级的机器学习库(如Google的Tensorflow)需要特定的配置,而这些配置很难在某些主机上进行故障排除。因此,docker经常与Tensorflow一起使用,以确保用于模型训练的环境是开发就绪(development-ready)的。
容器化且可扩展的应用程序
随着市场趋向于更多的微型服务和容器化应用,docker因其强大的功能越来越受欢迎。Docker不仅适用于训练模型,也适用于部署。将模型视作服务,你就可以将它们容器化,以便它们具有运行所需的环境,然后可以与应用程序的其他服务无缝交互。这样,你的模型具有可扩展性同时也具有了便携性。
Kubernetes(K8s)是一个在多主机上进行规模管理和部署容器化服务的平台。本质上,这意味着您可以轻松地通过跨水平可扩展集群,管理和部署docker容器。
由于谷歌正在使用Kubernetes来管理他们的Tensorflow容器(还有其他东西),他们进一步开发了Kubeflow,一个在Kubernetes上用于训练和部署模型的开源工作流。容器化的开发和生产正不断与机器学习和数据科学相结合,我相信这些技能对于2019年的数据科学家来说将是重要的。
Apache Airflow
Airflow平台虽然很小众,但是却很酷。Airflow是一个Python平台,可以使用有向无环图(DAG)程序化地创建、调度和监控工作流。
DAG(有向无环图)
这基本上只是意味着你可以随时根据需要轻松地设置Python或bash脚本。与可自定义但不太方便的定时任务(cron job)相比,Airflow能让你在用户友好的GUI中控制调度作业。
Elasticsearch
Elasticsearch同样比较小众。这个有点特别,取决于你是否有搜索/ NLP用例。但是,我可以告诉你在财富50强公司工作,我们有大量的搜索用例,这是我们堆栈中最重要的框架之一。与在Python中从头开始构建某些东西相反,Elastic通过Python客户端便捷地提供了所需的一切。
Elasticsearch让你可以轻松地以容错和可扩展的方式索引和搜索文档。你拥有的数据越多,启动的节点就越多,查询执行的速度就越快。Elastic使用Okapi BM25算法,该算法在功能上非常类似于TF-IDF(词频-逆向文件频率,Elastic以前使用的算法)。它有一大堆花里胡哨的东西,甚至支持多语言分析器等定制插件。
Elasticsearch index
由于它本质上是比较查询到的与索引中文档的相似性,因此它也可用于比较文档间的相似性。强烈建议先查看一下Elasticsearch是否提供了所需的一切,而不是直接从scikit-learn包中导入TF-IDF使用。
Homebrew(mac系统)
Ubuntu有apt-get,Redhat有yum,而Windows 10甚至有OneGet 。这些包管理器通过命令行界面(CLI)安装、管理依赖项,并自动更新路径($PATH)。虽然mac系统不能开箱即用,但Homebrew可以通过终端命令轻易安装。
弥补了OS系统无包管理的缺陷
不能在本地安装Apache Spark的小伙伴。可以访问官网,下载后解压,并将spark-shell命令添加到$ PATH中,或者在终端输入brew install apache-spark(注意:要想使用spark,你需要安装scala和java)。
官网
https://spark.apache.org/downloads.html
相关报道:
https://towardsdatascience.com/some-important-data-science-tools-that-arent-python-r-sql-or-math-96a109fa56d
【导读】 赛太岁的法宝是什么?紫金铃(拥有它能战无不胜),下面是小编为你收集整理的,希望对你有帮助!我国四大名著《西游记》中,出场的人、神仙、妖怪等人物除了自身有些本领外,都是会有法宝护身的,不管这个法宝是不是自己的,但是一定很好用。那大家知道赛太岁的法宝是什么吗?小编今天就跟大家科普一下吧。赛太岁......
发布时间:2023-06-01 08:01:03
5月25日,Selina任家萱在个人交际账号晒出一组旅行照。现在,Selina正处于孕中期,她和宝宝的状况都很不错,身体条件完全允许她出国旅游。Selina此次出国之旅去的是泰国,品尝了很多当地美食的.........
发布时间:2023-06-01 07:03:11
【导读】 黄瓜生吃好还是熟吃好 黄瓜怎么样吃更健康一些,下面是小编为你收集整理的,希望对你有帮助!黄瓜是很多人喜欢吃的美食,夏天可能很多人会生吃黄瓜,那么黄瓜到底是生吃好一些还是煮熟吃好一起呢,和小编一起了解探索一下吧。黄瓜生吃好还是熟吃好其实黄瓜最好不要生吃,很多人知道黄瓜不仅可以减肥,同时还可......
发布时间:2023-06-01 07:01:03
在4月份播出的一众新剧中,《请叫我总监》是这其中让人印象最深刻的一部,甜宠类剧作本就有着广泛的受众群,但却鲜少能够上星,显然《请叫我总监》与以往的甜宠类剧作有很大的不同。这部剧作虽然是将男女主角的感情.........
发布时间:2023-06-01 06:53:18
在5月还有一个电影周,2023海浪电影周在阿那亚再次启航。其中张译和吴京等也出席阿那亚电影周盛典,这是他们自中国观察奖以来第二次联手出席该活动。吴京回应张仪华表奖时说,他真诚地祝贺皇帝作为影帝,网友说.........
发布时间:2023-06-01 06:03:09
【导读】 烤箱烤大虾多长时间,下面是小编为你收集整理的,希望对你有帮助!烤箱烤大虾需要十分钟。将虾稍微腌制一下,200度,十分钟就好。烤箱停止之后,还有余温,可以再放置五分钟再拿出来。记得最后在虾背上铺上黄油,并且烤前烤箱需要180度预热5分钟。烤虾是一道美味的菜品,制作......
发布时间:2023-06-01 06:01:03
如果你喜欢电影,或许你刷到过他的视频——扁豆看电影。这个账号在全网的粉丝超过千万,解说过的电影也接近500部,它背后的主人叫何自强。现在的他已经不仅是个UP主(指在视频网站、论坛等上传视频音频文件的人.........
发布时间:2023-06-01 05:03:11
【导读】 什么叫动车,下面是小编为你收集整理的,希望对你有帮助!指轨道交通系统中装有动力装置车辆,包括机车和动力车厢两大类。动车装配有驱动车轮,而与之相对应地无驱动装置车辆为拖车。动车为安装有车轮驱动机器设备铁路车辆,不是动车组。不仅高速列车中有动车,所有火车类型......
发布时间:2023-06-01 05:01:03
5月1日清晨,洪欣突然发文自称和张丹峰不再是夫妻关系,张丹峰也回应说“对,不过了”,还附上了笑哭了的表情包,不难看出二人是在冲动下发文的。随后,毕滢也发微博喊话两人吵架归吵架,别拿离婚开玩笑,这么发展.........
发布时间:2023-06-01 04:03:10
【导读】 南巨龙:南美超巨型恐龙(超过30米长/尾巴灵活),下面是小编为你收集整理的,希望对你有帮助!南巨龙是一种泰坦巨龙类的超巨型恐龙,体长超过30米,诞生于8800万年前的白垩纪末期,最大的特点就是它的尾巴灵活性非常强,比雷龙还要更加敏捷精准,据说能够快速拍中一只巨脉蜻蜓,第一批南巨龙化石是在南美......
发布时间:2023-06-01 04:01:03
5月18日是第76届戛纳世界电影节红毯开幕的第二天,今天有不少明星陆续抵达,红毯依旧出现百花齐放的状况。首先是张雨绮,今天是她本次戛纳红毯的第二套造型了。张雨绮一向在造型方面相当大胆,这次穿着白色礼衣.........
发布时间:2023-06-01 03:03:21
【导读】 贺铸最豪放的词是哪首?,下面是小编为你收集整理的,希望对你有帮助!贺铸是北宋词人,字方回,又名贺三愁,人称贺梅子,自号庆湖遗老。他出身贵族,是宋太祖贺皇后族孙,后来又娶宗室之女,是贺知章后裔。由于先祖贺知章是庆湖的,所以就自号为庆湖遗老。贺铸擅长写词,词的风格很多样......
发布时间:2023-06-01 03:01:04