077-719469734

我们只用绿色的食品原料

米乐m6零食加工厂,只为您的健康着想

回归基本:5篇必读的数据科学论文,帮你保持领先职位

2022-04-01 00:48上一篇:文献综述撰写注意点及其花样模版规范 |下一篇:没有了

本文摘要:全文共2581字,预计学习时长7分钟图源:unsplash这篇文章涵盖了几个最重要的新近生长和最具影响力的看法,涵盖的话题从数据科学事情流的体例到更快神经网络的突破,再到用统计学基本方法解决问题的再思考,同时也提供了将这些想法运用到事情中去的方法。

米乐m6登录入口

全文共2581字,预计学习时长7分钟图源:unsplash这篇文章涵盖了几个最重要的新近生长和最具影响力的看法,涵盖的话题从数据科学事情流的体例到更快神经网络的突破,再到用统计学基本方法解决问题的再思考,同时也提供了将这些想法运用到事情中去的方法。1.机械学习系统中隐藏的技术债(Hidden Technical Debt in Machine LearningSystems)链接:https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf谷歌研究团队提供了在建立数据科学事情流时要制止的反模式的明确说明。

这篇论文把技术债的隐喻从软件工程借鉴过来,将其应用于数据科学。图源:DataBricks下一篇论文越发详细地探讨了构建一个机械学习产物是软件工程下面一个专门的分支,这个学科中的许多履历也会运用到数据科学中。如何使用:遵照专家提出的实用技巧简化开发和生产。

2.软件2.0( Software 2.0)链接:https://medium.com/@karpathy/software-2-0-a64152b37c35安德烈·卡帕斯(Andrej Karpathy)的经典文章明确表达了一个范式,即机械学习模型是代码基于数据的软件运用。如果数据科学就是软件,我们所构建的会是什么呢?Ben Bengafort在一篇极有影响力的博文“数据产物的时代”中探讨了这个问题。

(https://districtdatalabs.silvrback.com/the-age-of-the-data-product)数据产物代表了ML项目的运作化阶段。如何使用:学习更多有关数据产物如何融入模型选择历程的内容。

3.BERT:语言明白深度双向转换的预训练(BERT: Pre-training of DeepBidirectional Transformers for Language Understanding)链接:https://arxiv.org/abs/1810.04805这篇论文里,谷歌研究团队提出了自然语言处置惩罚模型,代表了文天职析方面能力的大幅提升。虽然关于BERT为什么如此有效存在一些争议,但这也提示了我们机械学习领域会发现一些没有完全相识其事情方式的乐成方法。像大自然一样,人工神经网络还浸没在神秘之中。

如何使用:· BERT论文可读性很强,包罗了一些建议在初始阶段使用的默认超参数设置。· 不管你是否为NLP新手,请去看看Jay Alammar阐释BERT性能的“BERT的初次使用视图指南”。

米乐m6

· 也请看看ktrain——一个运用于Keras的组件(同时也运用于TensorFlow),能够资助你在事情中绝不艰苦地执行BERT。Arun Maiya开发了这个强大的库来提升NLP、图像识别和图论方法的认知速度。4.彩票假说:找到稀疏且可训练的神经网络(The Lottery Ticket Hypothesis:Finding Sparse, Trainable Neural Networks)链接:https://arxiv.org/abs/1803.03635当NLP模型变得越来越大(看GTP-3的1750亿个参数),人们努力用正交的方式构建一个更小、更快、更有效的神经网络。这样的网络花费更短的运营时间、更低的训练成本和对盘算资源更少的需求。

在这篇开创性的论文里,机械学习天才Jonathan Frankle和Michael Carbin概述了显示稀疏子网络的裁剪方法,可以在最初显着增大的神经网络中实现类似的性能。Nolan Day的“彩票剖析假说”彩票指的是与效能十分强大的联系。这个发现提供了许多在储存、运行时间和盘算性能方面的优势,并获得了ICLR 2019的最佳论文奖。

更深入的研究都建设在这项技术之上,证实了它的适用性并应用于原始稀疏网络。如何使用:· 在生产前先思量删减神经网络。删减网络权重可以淘汰90%以上的参数,却仍能到达与初始网络相同的性能。

· 同时检察Ben Lorica向Neural Magic讲述的数据交流播客片段,这是一个寻求在灵活的用户界面上使用类似修剪和量化的技术简化稀疏性获取的开端。(https://neuralmagic.com/about/)5.松开零假设统计磨练的死亡之手(p < .05)(Releasing the death-grip of nullhypothesis statistical testing (p < .05) )链接:https://www.researchgate.net/publication/312395254_Releasing_the_death-grip_of_null_hypothesis_statistical_testing_p_05_Applying_complexity_theory_and_somewhat_precise_outcome_testing_SPOT假设磨练的提出早于盘算机的使用。思量到与这个方法相关联的挑战(例如甚至是统计员都以为解释p值近乎不行能),也许需要时间来想出类似稍准确效果磨练(SPOT)的替代方法xkcd的显著性如何使用:· 检察这篇“假设统计磨练之死”的博文,一位沮丧的统计员概述了一些与传统方法相关的挑战,并解释了使用置信区间的替代方式。

(https://www.datasciencecentral.com/profiles/blogs/the-death-of-the-statistical-test-of-hypothesis)这5篇论文能资助你更深入地认识数据科学!留言点赞关注我们一起分享AI学习与生长的干货如转载,请后台留言,遵守转载规范。


本文关键词:回归,基本,5篇,必读,的,数据,科学,论文,帮你,米乐m6登录入口

本文来源:米乐m6-www.wxlmzdh.com