\u003cimg src="https://x0.ifengimg.com/res/2020/779D0621611365D90AFA01DD0F6F5FCF99192202_size63_w740_h315.png" />\u003c/p>\u003cp>字幕组双语原文:机器学习中的数学意义\u003c/p>\u003cp>英语原文" />
快捷搜索:

机器学习中的数学意义

\u003cp class="textAlignCenter">\u003cimg src="https://x0.ifengimg.com/res/2020/779D0621611365D90AFA01DD0F6F5FCF99192202_size63_w740_h315.png" />\u003c/p>\u003cp>字幕组双语原文:机器学习中的数学意义\u003c/p>\u003cp>英语原文:Digit Significance in Machine Learning\u003c/p>\u003cp>翻译:雷锋字幕组(听风1996)\u003c/p>\u003cp>机器学习中的用于声称性能的指标标准很少被商议。由于在这个题目上益似异国一个清晰的、普及的共识,所以吾认为挑供吾不息在倡导并尽能够遵命的标准能够会很兴味。它源于这个浅易的前挑,这是吾的科学先生从中学开起就灌输给吾的:\u003c/p>\u003cp>科学通知的清淡规则是,您写下的每个数字都答为“ 真”的,由于“ 真”的定义是什么。\u003c/p>\u003cp>让吾们来钻研一下这对测试性能等统计量意味着什么。当你在科学出版物中写下以下陈述时:\u003c/p>\u003cp>测试实在率为52.34%。你所外达的是,据你所知,你的模型在从测试分布中挑取的未见数据上成功的概率在0.52335和0.52345之间。\u003c/p>\u003cp>这是一个专门强有力的声明。\u003c/p>\u003cp>考虑你的测试集是从切确的测试分布中抽取的N个样本IID构成的。成功率能够外示为一个二项式变量,其平均概率p由样本平均值推想:p ≅ s / N\u003c/p>\u003cp>其标准差为:σ=√p(1-p)。\u003c/p>\u003cp>其中当p=0.5时,其上限为0.5。\u003c/p>\u003cp>在正态近似下,推想量的标准差为:δ=σ/√N。\u003c/p>\u003cp>这个精度推想上的偏差δ 是云云的,\u003cstrong>在最坏的情况下,有约50%的精度\u003c/strong>:\u003c/p>\u003cp class="textAlignCenter">\u003cimg class="empty_bg" data-lazyload="https://x0.ifengimg.com/res/2020/2544478AA291B1B92C66FA0172AE02790ED7C91C_size13_w552_h209.png" src="data:image/gif;base64,R0lGODlhAQABAIAAAP" style="background-color:#f2f2f2;padding-top:37.86231884057971%;" />\u003c/p>\u003cp>换句话说,为了保证上述通知中例子52.34%的实在率,你的测试集的大幼起码答该在30M样本的数目级上!这栽不详的分析很容易转化为除了实在率以外的任何可计算的数目,尽管不克转化为像似然率或疑心度云云的不息数字。\u003c/p>\u003cp>下面是一些常见的机器学习数据集的表明。\u003c/p>\u003cp>\u003cstrong>在ImageNet上能够相符理地通知众少位数的精度?实在率在80%旁边,测试集是15万张图片:\u003c/strong>\u003c/p>\u003cp>√(0.8*0.2/150000) =\u003cstrong> 0.103%\u003c/strong>\u003c/p>\u003cp>这意味着你几乎能够通知XX.X%的数字,而实际上每幼我都是云云做的。\u003c/p>\u003cp>\u003cstrong>MNIST呢,实在率在99%:\u003c/strong>\u003c/p>\u003cp>√(0.99*0.01/10000) = \u003cstrong>0.099%\u003c/strong>\u003c/p>\u003cp>噗,也报个XX.X%就OK了!\u003c/p>\u003cp>然而,最值得仔细的是,在大无数情况下,性能数据并不是单独表现的,而是用来比较联相符测试集上的众栽手段。在这栽情况下,实验之间的抽样方差会被抵消,即使在样本量较幼的情况下,它们之间的实在度迥异也能够在统计学上很隐微。推想图方差的一个简片面法是实走bootstrap重采样。更厉格、清淡更厉格的检验包括进走配对迥异检验或更远大的方差分析。\u003c/p>\u003cp>通知超出其内在精度的数字能够很具有极大的吸引力,由于在与基线进走比较的情况下,或者当人们认为测试集是照样照样的情况下,同时也不是从测试分布中抽取的样本时,性能数字往往更添主要。当在生产中安放模型时,这栽做法会让人感到惊讶,并且固定的测试集倘若骤然湮灭了,还有一些无关主要的改进。更远大的是,这栽做法会直接导致对测试集进走过拟相符。\u003c/p>\u003cp>那么,在吾们的周围中数字为“真”意味着什么?益吧,这实在很复杂。对于工程师而言,很容易辩称不该该通知的尺寸超出公差。或者对于物理学家来说,物理量不该超过测量偏差。对于机器学习从业者,吾们不光要答对测试集的采样不确定性,而且还要答对自力训练运走,训练数据的差别初起化和改组下的模型不确定性。\u003c/p>\u003cp>根据这个标准,在机器学习中很难确定哪些数字是 "真 "的。解决手段自然是尽能够地通知其信任区间。信任区间是一栽更邃密的通知不确定性的手段,能够考虑到一切随机性的来源,以及除简片面差之外的隐微性检验。它们的存在也向你的读者发出信号,外明你已经考虑过你所通知的内容的意义,而不光仅是你的代码所得到的数字。用信任区间外示的数字能够会被通知得超出其名义上的精度,不过要仔细的是,你现在必须考虑用众少位数来通知不确定性,正如这篇博文所注释的那样。一同走来都是乌龟。\u003c/p>\u003cp>数字少了,杂乱无章的东西就少了,科学性就强了。\u003c/p>\u003cp>避免通知超出统计学意义的数字效果,除非你为它们挑供一个清晰的信任区间。这理所自然地被认为是科学上的不良走为,尤其是在异国进走配对隐微性测试的情况下,用来论证一个数字比另一个数字益的时候。仅凭这一点就频繁有论文被拒绝。一个良益的习性是对通知中带有大量数字的实在率数字起终持疑心态度。还记得3000万、30万和30万的经验法则对最坏情况下行为“嗅觉测试”的统计隐微性所需样本数目的节制吗?它会让你避免追逐统计上的“幽灵”。\u003c/p>\u003cp>(感谢为本文早期版本挑供珍贵偏见的一些同事)\u003c/p>\u003cp>雷锋字幕组是一个由AI喜欢益者构成的翻译团队,汇聚五五众位自愿者的力量,分享最新的海外AI资讯,交流关于人造智能技术周围的走业变化与技术创新的见解。\u003c/p>\u003cp>团队成员有大数据行家,算法工程师,图像处理工程师,产品经理,产品运营,IT询问人,在校师生;自愿者们来自IBM,AVL,Adobe,阿里,日本x片一级等著名企业,北大,清华,港大,中科院,南卡罗莱纳大学,早稻田大学等海内外高校钻研所。\u003c/p>

您可能还会对下面的文章感兴趣: