丫丫King
深度神经网络(DNNs)是 AI 领域的重要成果,但它的 “存在感” 已经不仅仅限于该领域。 一些前沿生物医学研究,也正被这一特别的概念所吸引。特别是计算神经科学家。 在以前所未有的任务性能彻底改变计算机视觉之后,相应的 DNNs 网络很快就被用以试着解释大脑信息处理的能力,并日益被用作灵长类动物大脑神经计算的建模框架。经过任务优化的深度神经网络,已经成为预测灵长类动物视觉皮层多个区域活动的最佳模型类型之一。 用神经网络模拟大脑或者试图让神经网络更像大脑正成为主流方向的当下,有研究小组却选择用神经生物学的方法重新审视计算机学界发明的DNNs。 而他们发现,诸如改变初始权重等情况就能改变网络的最终训练结果。这对使用单个网络来窥得生物神经信息处理机制的普遍做法提出了新的要求:如果没有将具有相同功能的深度神经网络具有的差异性纳入考虑的话,借助这类网络进行生物大脑运行机制建模将有可能出现一些随机的影响。要想尽量避免这种现象,从事 DNNs 研究的计算神经科学家,可能需要将他们的推论建立在多个网络实例组的基础上,即尝试去研究多个相同功能的神经网络的质心,以此克服随机影响。 而对于 AI 领域的研究者,团队也希望这种表征一致性的概念能帮助机器学习研究人员了解在不同任务性能水平下运行的深度神经网络之间的差异。 人工神经网络由被称为 “感知器”、相互连接的单元所建立,感知器则是生物神经元的简化数字模型。人工神经网络至少有两层感知器,一层用于输入层,另一层用于输出层。在输入和输出之间夹上一个或多个 “隐藏” 层,就得到了一个 “深层” 神经网络,这些层越多,网络越深。 深度神经网络可以通过训练来识别数据中的特征,就比如代表猫或狗图像的特征。训练包括使用一种算法来迭代地调整感知器之间的连接强度(权重系数),以便网络学会将给定的输入(图像的像素)与正确的标签(猫或狗)相关联。理想状况是,一旦经过训练,深度神经网络应该能够对它以前没有见过的同类型输入进行分类。 但在总体结构和功能上,深度神经网络还不能说是严格地模仿人类大脑,其中对神经元之间连接强度的调整反映了学习过程中的关联。 一些神经科学家常常指出深度神经网络与人脑相比存在的局限性:单个神经元处理信息的范围可能比 “失效” 的感知器更广,例如,深度神经网络经常依赖感知器之间被称为反向传播的通信方式,而这种通信方式似乎并不存在于人脑神经系统。 然而,计算神经科学家会持不同想法。有的时候,深度神经网络似乎是建模大脑的最佳选择。 例如,现有的计算机视觉系统已经受到我们所知的灵长类视觉系统的影响,尤其是在负责识别人、位置和事物的路径上,借鉴了一种被称为腹侧视觉流的机制。 对人类来说,腹侧神经通路从眼睛开始,然后进入丘脑的外侧膝状体,这是一种感觉信息的中继站。外侧膝状体连接到初级视觉皮层中称为 V1 的区域,在 V1 和 V4 的下游是区域 V2 和 V4,它们最终通向下颞叶皮层。非人类灵长类动物的大脑也有类似的结构(与之相应的背部视觉流是一条很大程度上独立的通道,用于处理看到运动和物体位置的信息)。 这里所体现的神经科学见解是,视觉信息处理的分层、分阶段推进的:早期阶段先处理视野中的低级特征(如边缘、轮廓、颜色和形状),而复杂的表征,如整个对象和面孔,将在之后由颞叶皮层接管。 如同人的大脑,每个 DNN 都有独特的连通性和表征特征,既然人的大脑会因为内部构造上的差异而导致有的人可能记忆力或者数学能力更强,那训练前初始设定不同的神经网络是否也会在训练过程中展现出性能上的不同呢? 换句话说,功能相同,但起始条件不同的神经网络间究竟有没有差异呢? 这个问题之所以关键,是因为它决定着科学家们应该在研究中怎样使用深度神经网络。 在之前 Nature 通讯发布的一篇论文中,由英国剑桥大学 MRC 认知及脑科学研究组、美国哥伦比亚大学 Zuckerman Institute 和荷兰拉德堡大学的 Donders 脑科学及认知与行为学研究中心的科学家组成的一支科研团队,正试图回答这个问题。论文题目为《Individual differences among deep neural network models》。 根据这篇论文,初始条件不同的深度神经网络,确实会随着训练进行而在表征上表现出越来越大的个体差异。 此前的研究主要是采用线性典范相关性分析(CCA,linear canonical correlation analysis)和 centered-kernel alignment(CKA)来比较神经网络间的内部网络表征差异。 这一次,该团队的研究采用的也是领域内常见的分析手法 —— 表征相似性分析(RSA,representational similarity analysis)。 该分析法源于神经科学的多变量分析方法,常被用于将计算模型生产的数据与真实的大脑数据进行比较,在原理上基于通过用 “双(或‘对’)” 反馈差异表示系统的内部刺激表征(Inner stimulus representation)的表征差异矩阵(RDMs,representational dissimilarity matrices),而所有双反馈组所组成的几何则能被用于表示高维刺激空间的几何排布。 两个系统如果在刺激表征上的特点相同(即表征差异矩阵的相似度高达一定数值),就被认为是拥有相似的系统表征。 表征差异矩阵的相似度计算在有不同维度和来源的源空间(source spaces)中进行,以避开定义 “系统间的映射网络”。本研究的在这方面上的一个特色就是,使用神经科学研究中常用的网络实例比较分析方法对网络间的表征相似度进行比较,这使得研究结果可被直接用于神经科学研究常用的模型。 最终,对比的结果显示,仅在起始随机种子上存在不同的神经网络间存在明显个体差异。 该结果在采用不同网络架构,不同训练集和距离测量的情况下都成立。团队分析认为,这种差异的程度与 “用不同输入训练神经网络” 所产生的差异相当。 如上图所示,研究团队通过计算对应 RDM 之间的所有成对距离,比较 all-CNN-C 在所有网络实例和层、上的表示几何。 再通过 MDS 将 a 中的数据点(每个点对应一个层和实例)投影到二维。各个网络实例的层通过灰色线连接。虽然早期的代表性几何图形高度相似,但随着网络深度的增加,个体差异逐渐显现。 在证明了深度神经网络存在的显著个体差异之后,团队继续探索了这些差异存在的解释。 随后,研究者再通过在训练和测试阶段使用 Bernoulli dropout 方法调查了网络正则化(network regularization)对结果能造成的影响,但发现正则化虽然能在一定程度上提升 “采用不同起始随机种子的网络之表征” 的一致性,但并不能修正这些网络间的个体差异。 最后,通过分析网络的训练轨迹与个体差异出现的过程并将这一过程可视化,团队在论文中表示,神经网络的性能与表征一致性间存在强负相关性,即网络间的个体差异会在训练过程中被加剧。 总而言之,这项研究主要调查了多个神经网络在最少的实验干预条件下是否存在个体差异,即在训练开始前为网络设置不同权重的随机种子,但保持其他条件一致,并以此拓展了此前与 “神经网络间相关性” 有关的研究。 除了这篇 这篇 研究以外,“深度学习三巨头” 之一、著名 AI 学者 Hinton 也有过与之相关的研究,论文名为《Similarity of Neural Network Representations Revisited》,文章探讨了测量深度神经网络表示相似性的问题,感兴趣的读者可以一并进行阅读。 Refrence: [1] [2]
尹才宝贝
YouTube推荐系统的三大难点:
· 一是规模太大,简单的推荐算法在如此大规模数据量上可能是失效的;
· 二是实效性,即新数据不断产生,需要将其良好的呈现给用户,以平衡旧有的好内容以及新内容;
· 三是噪音问题,用户行为与视频描述均有噪音,并且只能获得充满噪音的用户隐含反馈,而不能直接获取用户满意度。
图基于深度学习推荐系统架构图
本文呈现的推荐系统解决方案分为两个部分:
· 一个是备选生成(Candidate Generation),其目标是初选结果,从海量数据中选择出符合其个人需求偏好的百级别数据;
· 一个则是排序(Ranking),通过更加丰富的用户,视频乃至场景信息,对结果进行精细化排序,得到呈现给用户的备选。
备选生成阶段,将推荐系统定义为一个多分类器,其职责是确定某个用户,在某个场景与时间下,将从系统的视频中选择消费哪一个视频。具体的方法是,将用户与视频全部转化为Embedding描述,即一个向量,最终用户消费某个视频的概率通过如下方式计算得到:
而构建用户与视频的Embedding,则是通过训练而来。将用户观看视频/搜索记录/其它信息如年龄性别等作为输入特征,部分稀疏特征首先进行Embedding化,中间为数层ReLU,最终一层用SoftMax进行分类。 换句话讲,是将用户与场景信息作为输入,预估用户下一个要看的视频,也就是将用户分到具体某一个视频作为其类别。 用户与视频的Eembedding,则是神经网络最后一层的对应矩阵。这种方法除了能利用用户行为信息外,其它信息例如设备,地理位置,性别等也可以作为输入,这是神经网络相对于普通MF类算法的优势之一。
图推荐备选生成阶段架构
备选生成的下一个阶段是排序。其网络结构跟备选生成阶段类似,将所有排序模型中的信息输入后,进入多层ReLU,最终进行优化的是一个加权逻辑回归损失函数,观看时间作为阳性样本权重。在这一层,也可以看到其推荐“代理问题”的转化:由点击行为预估转为了以观看时长为权重的点击行为预估,这样更佳贴近Youtube的产品优化方向。与备选生成阶段另一个不同在于,排序模块需要考量的特征要多得多:
· “场景”类特征,例如用户可能在某个地方某个时间愿意观看某一条视频,但是在别的地方别的时间则不会;
· 曝光信息:用户观看了某界面,但是并未在其上进行操作,那么随之应进行已呈现内容降级;
· 备选生成层输出:排序需要将各种备选结果联合起来;
· 更丰富的用户信息:例如用户最近的一次搜索词,用户最近观看的同一个主题下的视频数量,用户上一次观看同主题视频的时间,用户所使用的语言等;
图推荐排序阶段架构
除了整体设计与系统架构以外,本篇论文中陈述了很多“选择”,这些选择更多的是“艺术”而不完全属于技术范畴。这些选择往往是很多技术人员关注不多的点,但在笔者看来,这些都蕴含着YouTube技术与产品人员深入的思考与判断。
“Example Age” 特征
对于YouTube产品层来讲,鼓励内容产生毫无疑问是至关重要的,所以推荐系统也希望对用户上传的新内容的有所偏好。然而幸运的是,即使损失一部分相关性,视频的消费者也偏好新内容。也就是说,新内容的价值可以良好的通过其带来的吸引力呈现出来,并不需要平台刻意而为之。
由于系统使用一个时间窗口的训练样本进行训练,如果没有视频的上传时间信息,那么模型会认为这个时间窗口内用户对视频的偏好是稳定的,然而事实远非如此。将视频的上传时间加入到特征集合后,预估更加准确,尤其是视频刚上传阶段的强烈便好被成功捕捉到。
图4.无时间特征预估/有时间特征预估/真实情况 三者对比
优化目标选择
图5.优化对象的选择
算法系统的设计首先要明确优化对象,这不仅仅涉及到损失函数的形式,同样也是评判系统成功与否的标准。YouTube是视频平台,更是富含“价值”的长视频平台,其观看行为比点击行为意义更大。(当然,笔者认为没有任何一个简单指标可以完全代表一个产品)
“正样本”定义
图6.何为正样本的设计选择
训练数据来源
图7.关于训练数据来源的设计抉择
训练数据应该只来源于推荐界面的曝光吗?YouTube认为不然。如果只考虑推荐界面曝光,则无法对用户便好进行 探索 ,更加无法捕捉用户偏好的变化,因为用户偏好的变化往往首先会对应着搜索与浏览行为。所以YouTube将各个界面例如搜索,导航等用户行为全部纳入其中。
训练数据窗口
图8. 训练数据收集方式的设计选择
Youtube将所有用户等而视之,每个用户收集一定量的样本。而不是惯常可见的直接收集一个时间窗口内的所有用户行为,作为训练样本。这样的好处是避免系统收到少数行为过多用户的影响,使得系统更多的为大众设计。这样的设计理念与近期阿里Gai Kun的论文中评测方法(用户AUC)设计有异曲同工之妙。
用户行为序列处理
图9.用户行为序列信息处理的设计选择
在系统中,用户往往会顺着一个检索结果页或者用户发布者浏览页进行顺序观看,如果系统捕捉到了用户看了检索界面的前三个结果,那么预估用户将看第四个结果就会很容易。但是这样真的好吗?将检索结果页面或者用户发布视频界面直接作为推荐结果呈现给用户是并不友好的--抢了别的界面应该干的活嘛。所以此处YouTube对用户行为序列做了处理,在模型输入中选择放弃用户行为的序列信息,将其打散成词袋Embedding,即使这样的信息有利于模型的离线训练效果。
预估对象的选择
图10.关于预估对象的设计选择
用户的行为往往是有顺序的,用户在系统中“热身”后,在一个频道下面,往往先看大众喜欢的热门,然后逐步找到自己的兴趣点,聚焦看一块内容。那么,训练数据则应该收集用户前段时间行为,预估此后的行为。而不是收集时间前后段的行为,预估中间时间段的用户行为。这样模型更加接近用户习惯。
除此之外,Youtube根据系统设计了对应的实验,结果非常简单:深度网络层数越高,效果越好。
YouTube的推荐系统,已经为其贡献了70%的用户播放时长,搜索与导航在PC时代的主导地位在移动时代已经完全被颠覆掉。希望大家在其中学到一些东西。笔者水平所限,若有错误不当之处,敬请指正。
另外,个人用TensorFlow模拟Youtube的推荐系统,做了一个简单实现。其实就是一个多分类器外加一个单分类器,远谈不上成熟,可以供大家参考。
——END——
硕士深度学习毕业论文难吗深度学习毕业论文难度取决于学生的技术能力,以及论文的难度。如果学生具有良好的技术能力,并且清楚论文的要求,深度学习毕业论文并不是很难,只
人工智能哪一个方向比较好写的话,我觉得应该是说它的应用方面比较好写吧,因为对于专业知识可能不太了解,但是它的使用的话应该比较简单。
论文:论文地址: 论文题目:《Session-based Recommendation with Graph Neural Networks》SR-GN
神经网络的是我的毕业论文的一部分4.人工神经网络人的思维有逻辑性和直观性两种不同的基本方式。逻辑性的思维是指根据逻辑规则进行推理的过程;它先将信息化成概念,并用
白行健(右)此前获COO金牌第一名 高中生开始研究图神经网络 白行健的论文为《基于自适应性图卷积神经网络的暴力用户检测》,目前已经成功入围总决赛。 文章提出了⼀