我喜欢DHC
Arjovsky M, Bottou L, Gulrajani I, et al. Invariant Risk Minimization[J]. arXiv: Machine Learning, 2019. 该文献为华为人工智能竞赛第一题的参考文献。 本文引入了不变风险最小化的方法(IRM),作为一种学习范例,用于估计多个分布之间的不变相关性。为了实现这一目标,IRM学习了一种数据的表达,使得在这种数据表达之上的最优分类器可以匹配所有的训练分布。通过理论和实验,我们展示了IRM学习到的不变性如何与控制数据的因果结构相关联,并实现了分布外的泛化。 我们考虑数据集 ,该数据集来自不同环境 。这些环境描述不同环境下测得的同一组随机变量。数据集 来自环境e,包含一些独立同分布的样本,分布为 。那么,我们的目标是使用这些多个数据集学习预测器 ,该模型可以很好的应用于相似环境 。也即,我们要最小化下式:其中 是环境e中的风险值。这里 包含了所有可能的实验条件,包括观测的和假设的。考虑下面这个结构模型:通过 预测 ,在环境e中,我们采用最小二乘预测 ,我们回归 ,得到 和 ;回归 ,得到 , ;得到 和 。使用 回归是我们的第一个不变相关性,也即该回归预测效果不依赖于环境e。相反,第二个和第三个回归的预测效果依赖环境的变化。这些变化的(虚假的)相关性不能很好的推广到测试环境中。但并不是所有的不变性都是我们所关心的,比如从空集特征到Y的回归是不变的,但却没有预测效果。 是唯一的在所有环境 中不变的预测规则。进一步,该预测也是跨环境的对目标变量取值的因果解释。换句话说,这对目标变量随输入的变化提供了一种准确的描述。这是令人信服的,因为不变性是一个可检验的量,我们可以通过它发现因果关系。我们将在第4节详细讨论不变性和因果性的关系。但是首先,如何学习得到不变性,因果的回归?我们先回顾现有技术的一些局限性: 第一,我们可以直接使用所有的训练数据进行学习,使用所有特征来最小化训练误差。这就是传统的Empirical Risk Minimization(ERM)方法。在这个例子中,如果训练环境具有很大的 ,那么ERM方法将赋予 一个很大的正系数,这就远离了不变性。 第二,我们可以最小化 ,一种鲁棒性的学习策略,其中 是一个环境基准。设置这些基准为0就表明最小化在不同环境中的最大误差。选择这些基准是为了防止对嘈杂的环境为主导的优化。例如,我们可以选择 ,来最小化不同环境间的最大解释方差。虽然很有价值,但这就等同于鲁棒性的学习会最小化环境训练错误加权平均值。即选择最优的 ,使得 最小化。但是对于混合训练环境具有很大的 ,会给 赋予较大参数,但是测试环境可能具有较小的 。 第三,我们可以采取一种自适应策略来估计在所有环境中具有相同分布的数据表达 。这对于上述例子是不可能的,因为 的分布在不同的环境中是不同的。这就说明了为什么技术匹配的特征分布优势会增加不变性的错误形式。 第四, 我们可以紧跟这种不变性因果预测技术。这些变量的子集用于回归每一个环境,在所有环境中都会产生相同的回归残差。匹配残差分布不适用于上述例子,因为Y的噪声随环境发生变化。 总之,对于这个简单的例子都很难找到不变的预测。为了解决这个问题,我们提出了IRM方法,这是一种学习范式,可以提取跨多个环境的非线性不变预测变量,从而实现OOD泛化。 用统计学的话讲,我们的目标就是学习不同训练环境中不变的相关性。对于预测问题,这就意味这需要找到一种数据表达,使得在该数据表达之上的最佳分类器在不同的环境中都相同。可按如下定义方式: 定义3:考虑一种数据表达 ,如果有一个分类函数 适用于所有环境,则可导出的跨环境 的不变预测器 ,也即对于任意的 ,都有 。 为什么上述定义等价于与目标变量的相关性稳定的学习特征?对于损失函数如均方误差和交叉熵,最优的分类器可以写为条件期望。一种数据表达 可以产生的跨环境不变预测当且仅当对于 的所有焦点h处,对于任意的 ,都有 。 我们认为不变性的概念与科学中常用的归纳法是相抵触的。实际上,一些科学发现都可以追溯到发现一些不同的但潜在的相关现象,一旦用正确的变量描述,它们似乎遵循相同精确的物理定律。严格遵守这些规则表明它们在更广泛的条件下仍有效,如果牛顿的苹果和星球遵循相同方程,那么引力就是一件事。 为了从经验数据中发现这些不变性,我们引入了IRM方法,不仅具有好的预测结果,还是跨环境 的不变预测器。从数学上,可转为为如下优化问题(IRM):这是一个有挑战性的两级优化问题,我们将其转化为另一个版本(IRMv1):其中 是整个不变预测器, 是一个标量和一个固定的虚拟分类器,梯度形式惩罚是用来衡量每个环境e中虚拟分类器的最优性, 是预测能力(ERM)和预测 不变性的平衡调节参数。 我们将(IRM)中的硬性约束转化为如下的惩罚性损失:其中函数 表示了 使得 达到最小化的程度, 是平衡预测能力和不变性的超参数。在实际应用中,我们希望 关于 和 是可微的。 下面我们考虑 为线性分类器这一特殊情况。当给定数据表达 ,我们可以由 写出:且我们希望这两个线性分类器的差异越小越好,即 。我们将该方法用到中的实例中,令 , ,则c控制了这个数据表达多大程度上依赖 。我们做出不变性损失随c的变化图见图1,发现 在 处是不连续的,而当c趋于0而不等于0时,利用最小二乘法计算 的第二个量将趋于无穷,因此出现了图1中蓝线的情况。图1中黄线表明在最小二乘中添加强的正则化不能解决这一问题。 为了解决这些问题,我们将最小二乘求 中的矩阵求逆去除,并按如下方式计算不变性损失:按照这种方式,得到图1绿线所示的情况。可见 是平滑的(它是 和 的多项式函数)。并且,当且仅当 时, 。 我们通过 最小化选择出的 是不唯一的,实际上对于可逆映射 ,我们可以重写不变预测器为:这意味着我们可以任意选择非零 作为不变预测器。因此,我们可以将搜索限制在给定 的所有环境最优分类的数据表达上。即:当 时,对于线性 ,上式的解 将趋于(IRM)的解 。 前文我们提出 是一个有效的分类器选择,这种情况下只有一部分的数据起作用。我们通过给出线性不变预测器的完整特征来说明这个悖论。下面的理论中的矩阵 ,为数据特征函数,向量 为最优分类器, 为预测向量 。 定理4:对于所有 ,令 为损失函数。一个向量 可以写为 ,其中 对于所有环境e,使得 同时达到最小,当且仅当对于所有环境e, 。所以,任何线性不变预测器可以被分解为不同秩的线性表达。特别的,我们研究 的情况,则有:后文将证明,不管我们是否限制IRM搜索秩为1的 ,这种形式的分解将会引入高秩的数据表达矩阵,且是分布外泛化的关键。 通过加入不变性损失和均方误差得到最终的IRMv1模型,可以写出一般的风险方程 ,其中 是一种可能的非线性数据表达。这种表达在任何损失下都最优匹配于常值分类器 。如果 返回的目标空间 具有多个输出,我们将它们全部乘以标量分类器 。 当使用小批量梯度下降估计目标(IRMv1)时,可以得到平方估计范数的无偏估计:其中 和 是环境e中的两个大小为b的随机小批量样本, 为损失函数,PyTorch例子见附件D。 假设不变最优分类器w是线性的有多严格?一种说法是只要给予足够灵活的数据表达 ,就可以将不变预测器写为 。然而,强制执行线性不变性可能使得非不变预测惩罚 等于0。例如,空数据表达 允许任何w为最优值。但是,当 时,这样产生的预测器 不是不变的。ERM项会丢弃这种无效的预测器。通常,最小化ERM项 将驱动 以至于将 在所有预测器中达到最优,尽管 是线性的。 针对这个研究,我们也为未来的的研究提出了几个问题。是否存在不会被ERM和IRM丢弃的非不变预测器?如果将w放宽到可从非线性中选取将有什么好处?我们如何构造非线性不变量不变性的惩罚函数 ? 新提出的IRM方法使得在训练环境 中具有更低的误差和不变特性。什么时候这些条件可以将不变性推广到所有环境中呢?更重要的时,什么时候这些条件可以使得在全部环境 中具有更低的误差,并导致分布外的泛化呢?并且在一个更基础的水平,统计不变性和分布外的泛化如何与因果理论中的概念相关? 到目前为止,我们已经忽略了如何将不同环境应该与分布外的泛化相联系。这个问题的答案要追溯到因果理论。我们假设来自所有环境中的数据共享相同的基础结构方程模型。 定义5:控制生成向量 的结构方程模型 是一组结构方程: 其中 被称为 的双亲, 是独立于噪声的随机变量。如果 ,可记为“ causes ”。我们可以据此来绘制因果图,每个 看作节点,如果 ,则就有从 到 的一条边。我们假设该图是无环的。 根据因果图的拓扑顺序,运行结构方程 ,我们可以从观测分布 的得到一些样本。同样,我们还可以以不同的方式操纵(干预)一个唯一的SEM,以e为指标,来得到不同但相关的 。 定义6:考虑一个 。用干预e作用到 上(包括替换一个或几个方程)以得到干预 ,结构方程为: ,若 或者 ,则变量 是一种干预。 类似的,通过运行干预 的结构方程,我们可以从干预分布 中得到一些样本。例如我们可以考虑在例1中干预 ,控制它为趋于0的常数,因此将 的结构方程替换为 。每个干预e都产生了一个干预分布为 的新环境e。有效的干预e不会损坏太多的目标变量Y的信息,从而形成了大环境 。 先前的工作考虑的是有效的干预不会改变Y的结构方程,因为对方程的任意干预都不可能预测。在这个工作中,我们也允许改变Y的噪声,因为在真实问题中会出现变化的噪声水平,这些并不会影响最优的预测规则。我们将其形式化如下: 定义7:考虑一个 控制随机向量 ,以及基于X预测Y的学习目标。那么,所有的环境集合 由干预产生的所有干预分布 得到。只要(i)因果图是无环的,(ii) ,(iii) 保持有限方差,则该干预 是有效的。 如果在定义 中考虑环境特定的基线,条件(iii)可以去除,与哪些出现在鲁棒性学习目标 相似。我们留下一些分布外泛化的其它量化作为以后的工作。 先前定义了因果性和不变性之间建立的基础联系。另外,可以证明一个预测 是跨环境 的不变预测,当且仅当它能达到最佳的 ,当且仅当它只使用Y的直接因果双亲来预测,也即, 。本节的其它部分将根据这些思想去展示如何利用跨环境的不变性实现所有环境中的分布外的泛化。 IRM的目的就是建立一种可以产生out-of-distribution的预测,也即,实现在整个环境 中具有更低的误差。为此,IRM致力于在环境 中同时减少误差以及保证不变性。这两者之间的桥梁由如下两步实现:第一步,可以证明 环境中更低的误差和不变性将导致 中更低的误差。这是因为,一旦估算出在环境 中数据表达 产生的不变预测 , 的误差将控制在标准误差界中。第二步,我们测试其余条件使得在环境 中具有更低的误差,即在什么条件下,训练环境 中的不变性意味着所有环境 中的不变性? 对于线性IRM,我们回答这个问题的起点是不变因果预测理论(ICP)。这里,作者(书40)证明了只要数据(i)是高斯分布的,(ii)满足线性的SEM,(iii)从特定类型的干预中得到,那么ICP重获目标的不变性。定理9表明即使上述三个假设都不成立,IRM也能学到这种不变性。特别的,我们容许非高斯数据,将观测结果作为稳定和虚假相关性的变量的线性变换来处理。 定理的设定如下。 有一个不变相关性变量 ,它是一个未观察的潜在变量,具有线性关系为 , 独立于 。我们能观测到的是 ,它是 和另一个与 和 任意相关的变量 的干扰组合。简单的使用 回归将不计后果的利用了 (因为它给出了关于 和 额外的虚假的信息)。为了实现分布外的泛化,数据表达必须丢弃 且保留 。 在展示定理9之前,我们需要先做一些假设。为了学习有用的不变性,必须要求训练环境具有一定程度的多样性。一方面,从大数据集中随机抽取两个子集样本并不会导致环境的多样性,因为这两个子集服从相同的分布。另一方面,以任意变量为条件将大数据集分割可以产生多样性的环境,但是可能会引入虚假相关性且破坏我们需要的不变性。因此,我们需要包含足够多样性且满足基本不变性的训练环境。我们将这种多样性需求形式化为需要环境在linear general position。 假设8:训练环境 在linear general position的程度为r, , ,且对于所有的非零 :直观上,这种linear general position的假设限制了训练环境共线性的程度。每个处在linear general position的新环境都将其不变解空间减少一个自由度。幸运的是,理论10表明不满足一个linear general position的叉积 集合为0。使用这种linear general position的假设,我们通过IRM学习的不变性可以从训练环境转化到全部环境。 下面这个定理表明,如果在 中找到一个秩为r的数据表达 导出的不变预测 ,且 在linear general position的程度为r,那么 将是整个环境
吃遍全宇宙!
史蒂芬·霍金最近发出警告:“一旦人工智能发展到完整的程度,人类的终结也就到了。”伊隆·马斯克则担心人工智能的研发有可能是人类存亡的最大威胁。连比尔·盖茨也敦促大家要小心。人一手创造的怪物,会不会反过来奴役人?这种畏惧很早就有了。但就在微软、谷歌竞相投入巨资研发人工智能之时,名气响当当的宇宙学家、硅谷创业家和微软创始人却分别说出这样的忧虑,这份忧虑就有不同的份量——要注意,他们三位可不是反对或排斥工业化、新技术的人。今天,一个人的口袋里装着的可能就是一部超级计算机,战场上杀出来的可能是机器人,如果把那份忧虑简单地当是异想天开,也是有些自欺欺人。问题在于,如何避免过犹不及?首先,我们要搞清楚,计算机现在已经具备了哪些能力,而在将来又会增加哪些能力。凭借处理能力的增强以及数据资料的增多,人工智能正处于快速发展的阶段。今天,深度学习(deep learning)系统能模仿人脑的神经元层,处理海量的数据,自己教自己如何去执行一些任务,譬如识别和翻译,做得几乎跟人一样好。结果,一些一直需要人脑参与的事情,大到解读图象,小到玩街机经典《青蛙过河》,现在也属于电脑程序能做的范围里了。Facebook在2014年发布了名为DeepFace的算法。这个算法可以识别相片里的人脸,准确率达到97%。但必须注意的是,这些都是应用于某一具体领域狭隘的能力。目前的人工智能是通过“残暴”的数据处理能力,来达到与人脑智力的“形似”,但至于如何模仿人的自主性、喜恶和欲求,成果则很少。电脑还做不到随心所欲地思辨、判断以及选择,而这些都是人类智力的特征。但与此同时,人工智能已经可以给人类生活带来巨大的改变。人工智能现在已经能辅助人类,为人做的事带来助益。国际象棋便是一例。现在电脑可以下赢任何一个人。不过,当今世界上最强的棋手并不是电脑,而是人与算法一起合力的团队。这样的团队组合将延伸至人类其它的活动:医生有了人工智能的支持,从医疗图像中查出癌症的能力将大大增强;有了智能手机上装的语音识别软件,发展中国家读写能力欠佳的人便能更好地使用互联网;做学术研究时,数字助理可以建议你哪条假设更有机会成立;有了图像分类算法,可佩戴设备对着肉眼看到的真实世界“加上”有用的标注。但也不是每个方面的效益都是正面的。譬如,无论是对民主国家还是专制国家而言,人工智能都是监管人民的利器。有了人工智能,政府便可以监听数以亿计的对话,在人山人海中根据声音或样貌特征轻而易举地找出它要找的人。这就对自由造成了严峻的威胁。尽管整个社会可以获得很多益处,但很多人会因为人工智能而处于劣势。在计算机诞生以前,给老板计算数字的苦活常是由妇女来做,后来这些职位就让晶体管占据了。同样,人工智能将来很有可能会让整个白领阶层捡包袱走人。虽说教育和培训有助打工者适应这个变化,且人工智能带来的新财富会进入新的行业从而产生新的工种,但打工者依然难免经历颠簸。但霍金、马斯克、盖茨他们担心的并不是监控和颠簸的问题。他们担心的是近期好莱坞电影里的场景:自动化机器拥有了比人类更灵敏的认知能力,拥有了与肉身的人冲突的利益观。这样的人工智能产品离我们还遥远得很,甚至可能永远也造不出来。无论是心理学家、神经学家、社会学家还是哲学家,在对着人脑东敲敲西敲敲地研究了一个世纪后,依然没搞清楚人的思维是怎么回事,更不要说仿造出一颗人脑。假如机器拥有自己的利益观和自主能力,即使这机器的智能不完整,只能用于某个用途,也绝非代表我们就可以放心使用:无人车跑起来比人开还好,这听起来挺赞的,但要是车有自己想去的地方,听起来可就不太妙。虽然我们离霍金所说的“完整的”人工智能还很远,但现在就开始思考如何应对到时的情况,也是谨慎之举。“超人”又“自治”的东西,人类不早就创造过了吗?官僚体制、市场、军队,这些都是,这些都帮助人类做到没有辅助、组织时做不到的事情;这些都能自主运作,而且如果不加法规管理,都会造成巨大的祸害。这些相似的事物或许可以令人工智能的持疑派放心一些。这些事物也喻示了人类社会如何可以安全地研发人工智能。军队需要文官管理,市场需要监管,官僚需要问责、透明;同理,人工智能系统也必须接受监督。由于系统的设计者无法预见所有的情形,还必须要有危急时刻拉闸中断的设置。加入这些限制并不会妨碍进步。大到核弹,小到交通规则,这些都证明人类曾成功运用技术和法律手段去管理威力强大的创新。
数控车床智能控制系统的研究 摘要:针对目前现有数控车削加工过程中加工、测量、编程相互分离,导致生产效率低,智能化和自动化程度不高以 及对机床操作人员要求较高的现
关于现代企业文化建设的几点思考 论文摘 要 企业文化是企业在长期的发展过程中所形成的、并沉淀在企业员工心目中的一种价值理念,它是一种文化哲学。优秀的企业文化应包
会查重,为了规范人工智能学院本科生毕业论文的管理,杜绝学术不端的行为,现对“查重”工作规定如下:第一条 拟申请本科毕业论文答辩的学生,经指导教师同意,在答辩前一
现代化的机械制造技术是一种一体化、综合性、系统的技术手段。下面是我为大家整理的机械制造自动化毕业论文,供大家参考。 摘要:随着现代科技的迅速发展,我国正朝着工业
1. [期刊论文]产教融合视域下汽车智能技术专业人才需求分析 期刊:《内燃机与配件》 | 2021 年第 002 期 摘要:在国务院印发《国家职业教育改革实施方