• 回答数

    3

  • 浏览数

    348

我爱我家2小宝
首页 > 论文发表 > kaggle发表论文

3个回答 默认排序
  • 默认排序
  • 按时间排序

呵呵呵达

已采纳

最近挤出时间,用python在kaggle上试了几个project,有点体会,记录下。

EDA,也就是对数据进行探索性的分析,一般就用到pandas和matplotlib就够了。EDA一般包括:

在这步完成之后,要对以下几点有大致了解

数据预处理,就是将数据处理下,为模型输入做准备,其中包括:

理论上来说,特征工程应该也归属于上一步,但是它太重要了,所以将它单独拿出来。kaggle社区对特征工程的重要性已经达成了共识,可以说最后结果的好坏,大部分就是由 特征工程 决定的,剩下部分应该是 调参 和 Ensemble 决定。特征工程的好坏主要是由 domain knowledge 决定的,但是大部分人可能并不具备这种知识,那么只能尽可能多的根据原来feature生成新的feature,然后让模型选择其中重要的feature。这里就又涉及到 feature selection , 有很多方法,比如backward,forward selection等等。我个人倾向于用 random forest的feature importance , 这里 有论文介绍了这种方法。

Model Ensemble有 Bagging , Boosting , Stacking ,其中Bagging和Boosting都算是 Bootstraping 的应用。 Bootstraping 的概念是对样本每次有放回的抽样,抽样K个,一共抽N次。

最后是我的两点心得吧

这篇文章是参加kaggle之后的第一次总结,描述了下kaggle的步骤,通用的知识点和技巧。希望在未来一个月中,能把xgboost和stacking研究应用下,然后再来update。希望大家有什么想法都能跟我交流下~~

update: 更新了关于类别特征的处理方式以及Boosting和Bagging的看法,还有stacking的内容。

126 评论

小小爱人小姐

劝退?这么好的方向为什么要劝退呢?高光谱方兴未艾,需求快速增长别把目光只停留在遥感上农业,工业/制造业,环保中的用途太多了毕业如果不好找工作,来我们公司,高薪诚聘!不同意其它回答中工业领域没有应用的意见。我自己本身就做了好几个工业领域高光谱应用。几乎所有的技术应用与实际的路径都是:科研-》工业-》民用从现在的科研情况来看,高光谱在确实在农业、工业中有很高的应用价值。尤其是现在的高光谱相机的价格越来越便宜,我之前买的国外相机,要20几万。现在国产的只要6-7万块,而且性能参数服务都挺好,所以大大增加了应用的可能。杭州彩谱高光谱相机尤其是现在机器学习的研发门槛变低,使得大多数应用都有了突破的可能。工业领域中,大量的需求是定性判别。比如说:废旧塑料分选。废旧塑料分选通常是对高光谱相机采集得到的目标塑料的光谱反射曲线进行聚类分析,进而分辨塑料的种类。高光谱相机最简单,买过来用就可以了。而对于最关键的聚类分析,由于开发人员的水平参差不齐,所以得到的效果也差强人意。现在可以直接使用第三方机器学习库:百度AI华为AI类似的方法也可以用在农产品的杂质分选上,比如木耳里的塑料,秸秆等等。我是河北唐山人,我家附近有很多种核桃、白果的农户。他们家里很多人都有色选机,就是根据颜色对白果(好的颜色白,不好的颜色发黄)进行分类,可以卖更高的价钱。高光谱相机可以用在水果的品质分选上,“褚橙”为什么每个都好吃?不是种植的水平高,是用高光谱机器选出来的。高光谱在这些方面的应用,还远远没有发掘,根本原因就是因为价格高。而国内优秀的高光谱相机生产商,通过技术进步和供应链完善,已经把价格降得非常低了。相对于芬兰SPECIM的20万的价格,国内的价格只要6万多一台。可以预见的是,近几年高光谱的应用推广速度会越来越快。更多的应用还有:工业机器视觉检测中的颜色检测,目前的机器视觉相机,都不能实现精确的颜色检测,但是使用高光谱相机,可以实现非常精确的颜色检测和非常微小的色差判别。真正意义上实现了替代人眼。工业领域中的缺陷检测,水果的耳机在制造中就是使用了高光谱相机去检测是否有溢胶情况发生,而这种微量的溢胶,用普通的机器视觉检测是无法发现的。类似的应用有太多了,所以,随着高光谱相机价格的降低,机器学习第三方库的成熟,会有越来越多工业领域都会有成熟的高光谱应用。所以,大有前途!努力干吧!

115 评论

蓝瑟季候风

作者丨记忆的迷谷@知乎(已授权)来源丨编辑丨极市平台写在前面是的,今年的秋招确实是肉眼可见的难度增加:缩招、裁员、毕业生人数爆炸,这些关键字已然成为2023届秋招的代名词。竞争激烈,算法岗入坑的难度更是直线上升。卡第一学历、卡名校、卡重点实验室......这些“基本操作”早已司空见惯。在卷成麻花的2022年,一个没有上述背景、没有名校撑腰的普通科班小硕能入坑中大厂的CV算法岗吗?我的回答是:能,但是很难、很卷,且容错率较低。因为CV算法岗的竞争对手基本都在985分段,且动不动就是某C9高校的重点实验室。因为身边的人不走算法岗,所以全程基本靠自己摸索,期间遇到了各种困难、走了许多弯路。为了记录这段有意义的经历,同时给自己一样出身普通的师弟们(实验室没有师妹)提供CV算法岗的就业思路,将本人的整个秋招的真实历程分享给大家。【长文警告↓↓↓】导读:本篇文章主要分为以下几个章节:【背景】,【历程】主要介绍了本人秋招前的状态,以及从研究生入学到秋招的过程。【需要掌握的技能】从硬实力、软实力两个方面介绍秋招时可以增加自己竞争力的点。由于每个人的基础情况不同,CV算法岗也有较多细分方向,本章节仅供参考,大佬请直接略过。【总结】秋招的一些小的建议。补充说明: 1. 阅读文章之前,请务必了解“幸存者偏差”这一概念,CV算法岗的秋招形式严峻,请保持理智。 2. 本文的“普通”一词是指本科双非、硕士非985、非重点实验室、无顶会、投递岗位为CV算法岗的计算机科班应届研究生,并无冒犯之意。背景概述:本人本科双非软件工程专业,硕士普通211的计算机技术专业,目前研究方向是计算机视觉。秋招拿到【虹软、vivo、OPPO三家offer,均为计算机视觉类(CV)算法岗,有SP也有大白菜】(除去国企银行),和大佬们的offer没得比,但感觉基本接近自己的预期。(虽然已于9月获得虹软转正意向书,为了给自己的秋招不留遗憾,同时可以通过不同的offer明确自己在秋招大军的整体定位,所以坚持完整参与了秋招)。具体情况:身边的环境除了我的大大大师兄(高我三四届)拿了某中厂算法offer以外,我们实验室就再也没有人走过算法岗。包括同门在内的同届同学,也基本都是开发。师兄和同学也都劝退我走算法,改开发。在我找到第一份算法实习之前,大部分人都认为我选择这条路是一个头铁且愚蠢的行为,且常听到阴阳怪气的言论。每次刷知乎,总能看到“19年算法岗供大于求”、“20年算法岗诸神黄昏”、“21年算法岗灰飞烟灭”,今年又换了个四字词语 --“人间炼狱”。各路“过来人”也都是全方位劝退。打开网易新闻 查看精彩图片 好在自己的家人比较支持我自己做决定,只不过最后选择offer的时候,家人们曾劝我躺平一个随手拿的国企,放弃自己的专业,我要真想躺平还用的着这么卷么,大无语。总之,身边自始至终支持我走算法岗的,四舍五入就只剩自己了。没关系,意料之中罢了。自己拥有的一些条件导师不会push我们给他发论文,且只要完成规定的任务,就允许我们自己出去找实习。【秋招上岸的关键性因素】实验室有免费使用的入门级计算资源,虽然只是1080Ti这种级别的显卡,且当时还要和师兄一起用。但是拿来学习跑跑实验还是绰绰有余的。同时家里赞助更新了一台2060GPU的笔记本,用来本地调试也挺好使。学校的线下课程在研一期间全部上完,研一课程结束就可以做实习早鸟。历程本节按照时间线的顺序,叙述了本人历时两年的秋招战线。【初识算法】2020年9月~2020年10月结束摆烂、确定方向阶段。研究生入学,之前联系的导师莫名其妙把我鸽 了,不得不重新找导师。我的选择标准有两个:一是教授,二是允许实习。在本科国奖托底和自己死皮赖脸的坚持下,我现在的导师给加了一个名额,顺利入组。导师给我明确了CV的研究方向,同时分享了一些资料(因为才学疏浅,当时没能看懂,后面就跑去B站知乎学习了),每周组会汇报自己的学习进度。也是这个时候发现自己对CV挺感兴趣的,也是初生牛犊不怕虎,确定自己走算法岗的方向。【走出迷茫】2020年11月~2021年2月夯实基础阶段。因为导师安排的任务主要偏学术,我也意识到:如果仅仅靠导师的指导、按部就班的学习就去找算法岗工作,是远远不够的。于是,自己找到了一位前辈指点自己系统地入门深度学习。之后制定学习计划、学习基础铺垫知识、筛选和阅读paper、debug源码、参照已开源的工作来复现未开源的论文......在完成导师布置的任务之余,花了大量时间,算是搞明白深度学习的路子了。在此期间,完成导师安排的项目、自己找一些开源的项目补充学习,可以加深自己的理解同时还能润色简历。打开网易新闻 查看精彩图片 当时的部分学习计划(分类&检测篇)因为搞算法除了python的基本要求外,C++多少也要会一些。也是从这个时候,制定了刷力扣的长期计划,强迫自己学习C++,编程题也全部用C++写。刷题不求多,但重在把思维和语法熟练度锻炼好。【稳扎稳打】2021年3月~2021年5月备战实习阶段。过年给自己放了半个月假,开始着手找第一段实习。听了师兄的建议(当时师兄在鹅厂实习搞开发,respect),开始刷牛客面经,查漏补缺,力扣保证一周刷七题。同时系统地整理之前学习的笔记,也是这个时候我写了知乎的第一篇博客,并立下了一年写完50篇技术博客的flag(已于2022年4月达成)。【初露锋芒】2021年5月~2021年6月第一段实习的投递、面试阶段。第一次投实习没有经验,先投了一些难度拉满的大厂:商汤、字节都给了面试,但是面得稀烂,商汤的面试官更是在无coding题的情况下问了我两个小时的问题,面试结束后当场自闭。后来总结了面试失败的经验,也补上了自己面试中没有答出来的知识点。现在想想,当时的我真的是愚蠢至极,就应该先面小厂,积累面试经验,起码不至于面试过后脏了自己的大厂面评(因为秋招的时候,这两家秒挂我的简历,应该是自己作没的 )。经历了十多场面试,也积累了足够的经验,最终自己如愿拿到了vivo AI研究院的算法岗实习offer。打开网易新闻 查看精彩图片 【渐入佳境】2021年7月~2022年1月第一段实习。在我的软磨硬泡下,导师先是同意我出去实习半年(美滋滋)。入职以后,令人窒息的压力接憧而至:老大给我的研究方向是神经网络结构搜索(NAS)方向 -- 一个自己从来没听说过的预研方向,与此同时,同组的实习生来自武大,还比我早来一个月,需要尽快跟进她的进度。于是,自己白天调研相关工作、复现一些论文、慢慢接手项目,晚上加班读源码、刷博客(卷到了旁边的实习生,实在抱歉)。第一个月顶着压力,总算把进度拉上来,项目步入正轨。9月,恰好看到Kaggle有个CV新赛,恰好这时候蓝厂取消大小周,于是就报名参加了。之后差不多两个月的时间,白天赶项目,晚上和周末搞比赛。11月,项目需要优化的模型计算量首次降低到100M以下,同时比赛也拿到了铜牌(第一次参赛,拉胯的成绩,但尽力了)。后面的时间就是边实习边准备开题,顺利完成了实习阶段的任务,拿到了口头转正(可惜AI研究院今年不招人,靠自己重新走流程拿的影像算法部,权衡了一下,还是想待在自己熟悉且喜欢的组),与nice的同事们告别。【一波三折】2022年2月~2022年5月向导师争取了第二次实习的机会,开始着手准备暑期实习,同时和之前实习的武大同学合作一篇论文。但没高兴多久,上海的疫情就爆发了,几乎整个上海的实习HC都没了,与此同时学校疫情封楼,天天牢饭吃到心态爆炸,差点想转开发(庆幸自己没转)。虽然有了一段大厂实习经历,但找第二段实习甚至更艰难:收到一堆海笔,只收到了三家面试(某周的周一面了美团,面试官很nice,面试也顺利,他还表达了希望我面试通过后早点过去实习,结果周五反手收到个感谢信☺)。磕磕绊绊拿到了第二份offer -- 虹软的计算机视觉算法岗实习。打开网易新闻 查看精彩图片 【稳中求胜】2022年5月~2022年9月初第二段实习。这次研究方向是视线检测,因为在蓝厂的实习积累了许多项目经验,所以无论是搭环境还是上手项目都很快。我们组所有的实习生每周都会单独开个周会,可以了解大家的进展,同时还能偷学一些技巧,因此在这边自己成长的速度很快。和我搭档的实习生是天大的,我俩都做视线方向,经常一起讨论项目中遇到的难点,如我mentor所说,1+1 > 2,无论是实习还是秋招,找个伴共同进步总好过孤军奋战。7月~9月初,工作时间肝项目,下班以后的空闲时间刷题、刷面经,准备转正答辩,投提前批(算法提前批卡学校,基本全泡池子),投秋招,基本每天搞到11点才休息(转正名额有限,不敢做赌狗)。8月底顺利通过转正答辩,9月初拿到了虹软为数不多的转正意向书。【冲刺终点】2022年9月~2022年10月收获的季节。实习结束,导师召回返校,一边做导师安排的工作一边搞秋招。总共笔试了二三十家公司,面了六七家(因为不是985、研究方向有差异,也被拒了蛮多)。最后到手虹绿蓝三家offer,于十月中旬尘埃落定。平时经常做RGB图像算法,没想到拿的offer也刚好涵盖RGB三种颜色 ,或许这就是缘分吧。需要掌握的技能 硬实力篇1.基础知识入坑算法岗的基本功。推荐李航老师的《统计学习方法》以及周志华老师的西瓜书。入门深度学习推荐斯坦福《CS231N》课程(在B站上可以找到中文字幕版)。不太推荐一上来啃《深度学习》(花书),对小白不友好,但是后期可以当工具书使用。确定了自己的研究 / 学习的方向后,可以在各类博客上找到对应方向大牛整理的paper list,选取一些经典必看的论文,并在Github中找到对应的源码阅读【一定要看源码,一定要看源码,一定要看源码】,面试的时候,资深的面试官经常会问一些细节问题,而只有你理解了源码是怎么实现的前提下,应对这些问题才能游刃有余。在学习时,要及时总结和整理,将论文里的知识精炼成自己笔记的过程,其实就相当于模拟回答面试官问题的过程。整理的东西多了,就变成的所谓的“八股文”,相较于开发,算法的面经更灵活,面试的问题也因人而异,一份属于自己的“八股”很重要,同时它也是实习和秋招面试前最有价值的复习资料。2.实习如果导师允许的话,【一定要尽早出去实习,一定要尽早出去实习,一定要尽早出去实习】。实习经历越丰富、实习公司的层次越高、实习的时间越久,你的竞争力越强。曾经有HR和我说过,CV算法岗的普通分段同学很少能进流程,如果没有实习经历,自己大概率会被淘汰。PS:实验室不给实习的同学,也不要灰心,实习不是入职算法岗的必要条件,但是如果你但凡有机会实习,一定要好好把握。3.项目冷知识:在简历和面试中把自己的论文以项目的形式描述,面试官会更感兴趣。“如果你发表的不是顶会,那么我更希望你用项目的形式叙述你的作品。”这是面试时一位面试官的原话。所以在这里,我把自己的论文归类为项目,且当我把论文以项目的形式更新到简历中,后面的面试会问到这部分工作的频率明显增加。很多人觉得自己的项目可能不是那么出彩,觉得拿不出手。在这里完全可以打消这个顾虑,我们投的又不是天才少年计划,所以只要能把自己的项目讲明白,言之有理,都可以作为一个加分项。在面试前,一定要梳理好自己的项目,例如解决的问题、应用场景、创新点、难点、数据是怎么处理的、badcase是怎么优化的、后面还能改进的地方......讲项目的时候一定要自信、有条理,建议面试前可以多试讲几次录个音。4.比赛打比赛有两种策略:第一种策略:运气好,碰到了自己熟悉方向的比赛,在比赛中尽可能刷高自己的名次。第二种策略:只有自己感到陌生的方向(不过也是CV类比赛),用最快的时间上手该方向,然后尽可能深入,争

113 评论

相关问答

  • 发表论文发表

    怎么样发表论文: 1、想要发表论文,事先要做的就是写好一篇查重率合格,且具备一定价值的论文,论文查重率的具体要求,要根据想要发表的期刊来定,若为普通期刊,则查重

    susanwangyue 4人参与回答 2023-12-11
  • 论文发表发表

    看你上面的刊期,在职称评定中,是以刊期为准的。如果是5月份的刊期,即使是8月份收到的,也是按5月份算的。

    慧心永梅 5人参与回答 2023-12-06
  • 发表发表论文

    六个发表论文的流程:准备论文、投稿、审核、录用、出刊、上网。 1、准备论文:如果论文已经准备好了,按照论文找合适的期刊就好;如果论文没写好,建议还是先找合适的期

    wuyan841106 3人参与回答 2023-12-05
  • kaggle上的数据发表论文

    能。论文里的公开数据集能不写出来,但是必须引用提出数据集的论文,如果没有发论文,如在kaggle上在线发布的数据集,也要以网络资源的形式进行引用。

    喜欢运动的男孩 3人参与回答 2023-12-07
  • Kaggle美数模发表论文

    可以,现在的学术界已经没有像以前学术界那么严肃了,只要是有用的数据,都是可以用来做学术研究的。发表学术论文只是一个学术成果的展示,他不包含研究过程。只要你不发表

    多彩装修 5人参与回答 2023-12-07