kaggle比赛含金量在业界是很高的。有兴趣的可以试着参加一下,提升自己能力的同时又可以开拓视野,不断向许多强者学习。
所以不论你是求职者还是学生,如果对数据科学感兴趣,都可以利用Kaggle来锻炼自己的技能,提升自己的背景。简历中如果有这样一份为“准东家”定制的Kaggle项目经历,定能提升梦校、大厂Offer的命中率。
所以不论你是求职者还是学生,如果对数据科学感兴趣,都可以利用Kaggle来锻炼自己的技能,提升自己的背景。简历中如果有这样一份为“准东家”定制的Kaggle项目经历,定能提升梦校、大厂Offer的命中率。
参加过几次,只拿过几个前10%。
下面是我的一些个人经验:
1. 一定做Ensemble,甚至是对submissions做ensemble。
2. 目的如果单纯是拿好的排名,那么就找人多的比赛参加,因为那些参加人数上千的比赛里面大批僵尸参赛者,超过他们就可以进25%了。
3. 对大多数比赛来说,Feature Engineering比选用什么模型更重要
4. 多看论坛,大家会在比赛进行中讨论很多泛泛的思路,对自己可能有帮助。有时候会有人发布比较好的Beat the benchmark代码,仔细思考为什么这个模型能够work,在上面涂涂改改有时候效果更好。
5. 永远相信自己的cross validation结果,甚于public leaderboard,结束前后的榜单常常震动巨大,具体例子参见 Description - Africa Soil Property Prediction Challenge 和 Description - Higgs Boson Machine Learning Challenge6.
每次比赛最有价值的东西就是结束之后的方法分享帖,大家的方法都很不一样,挑一个说得比较全面清晰的方法,自己尝试重现一个一样或者接近的效果,然后再尝试改进它,这个过程能学到非常多东西。
Kaggle主要是以Data Mining的比赛为主,那么这个答案就非常直接了:Feature Engineering无数经验告诉我们,做Kaggle比赛如果是抱着Machine Learning的态度,沉迷于facny的模型而忽略数据本身,一定会死得很惨很惨!
当然,基本的ML知识还是有的。在比赛中,最常用的分类器一般是Gradient Boosting Tree(GBDT)和Random Forest(对,你没看错,不是那个在教科书中推Dual时让很多人痛不欲生的SVM)一些常见的预处理技巧,比如PCA,KMeans,TF/IDF,Hashing等等都还是必须的。这里就不展开讲了。
最后,但是非常关键的一点是Ensemble 从KDD Cup到Imagenet,我从来没见过ensemble不会改善结果的情况,只是多与少的问题。不做ensemble就意味着你自己告别了一大块宝藏。
论文参加比赛当然不会影响发表。反而会促进你的发表成功率。如果你的认为在比赛当中被评定为优质获得奖项。那么你的发表就更加的顺理成章了。
参加全国大学生生命科学竞赛的论文不能发表,发表必须是在学术出版载体上,这个载体主要指的是期刊或集刊,比如普刊学报核心,还有一些会议论文集,单纯参加全国大学生生命科学竞赛的论文不能发表。
可以的,博远论文编辑部可以在此方面为你解忧。请点击我的用户名给我留言。
不算。发表必须是在学术出版载体上,这个载体主要指的是期刊或集刊,比如普刊学报核心,还有一些会议论文集,单纯参赛的论文不能算发表的论文。但是如果是参赛论文有获奖的话,就看赛事主办方有没有把获奖论文结集出版了,你可以去知网上查下,如果有,那这篇文章就已经算发表了,如果没有,就要重新找其他或会议去投稿发表。
只要是自己写的,参加比赛不重要,除非被比赛举办方拿去编辑成册并公开出版,一般情况下都可以发表在公开期刊上。发表过的论文嘛,要看比赛要求了。有的要求原创,有的要求未公开发表。
重庆市物理科技小论文比赛是由重庆市物理科技学会举办的一项年度学术论文比赛,旨在激发学生们的学术研究热情,提升自身的科学研究能力,推动物理科技学科的发展。本次论文比赛要求参赛者撰写200字以上的论文,以有关物理科技的最新研究成果、发展趋势或其他与物理科技相关的话题为研究内容,提交论文以参与评比。本次比赛中,学生们可以表达自己的学术观点,分享自己的科学研究成果,也可以向专家学习获得指导和建议,从而提升自身的学术水平和科学研究能力。
可以,只要没有发表过。
给你个样板参考:关于在我院本科生中开展历史学术论文比赛的通知为了更好地加强我院在读本科生的专业学习兴趣,提高本科生的科研能力和学术水平,促进学生素质的全面发展,营造我院浓郁的学术氛围,以适应不断发展的社会需要。我院将举行历史学术论文征文比赛。一、征集作品内容或要求历史专业学术论文或者历史知识研究的作品。二、作品征集对象xxxx大学历史文化学院在读本科生。三、注意事项1、应征作品必须为原创,不得抄袭、剽窃他人作品;2、作品格式必须用普通学术论文格式提交。四、评审方式1、本次征文比赛评审机构组成:本院各个教研室的老师(共九人);2、评审程序:分初评和复评;3、应征作品以下情况视为无效:(1) 提交的作品不符合本次征文比赛的要求;(2) 作品经专家评审组鉴定属明显抄袭;(3) 逾期上交作品。五、奖励办法1、本次征文比赛设一、二、三等奖各三名;2、获奖作者分别获得获奖证书、奖品各一份和奖金分别300元、200元、100元;3、优秀作品将优先推荐发表;4、比赛获奖者将在学年评优中获得相应的加分奖励。六、截止日期、评选结果公布1、应征作品应于2006年9月16日前提交;2、作品评审时间:9月17日-9月30日;3、评奖结果将于9月30在学院和学院网页上公示一周。七、应征作品提交方式1、稿件原则上要求电子版,邮件主题为“论文评比”,并发送至学工办邮箱xxxx.com2、稿件请交到文科楼四楼学生工作办公室;3、应征作品上交时一并提供以下资料:作者姓名、所在班级、联系方式。历史文化学院二00六年四月七日
最近挤出时间,用python在kaggle上试了几个project,有点体会,记录下。
EDA,也就是对数据进行探索性的分析,一般就用到pandas和matplotlib就够了。EDA一般包括:
在这步完成之后,要对以下几点有大致了解
数据预处理,就是将数据处理下,为模型输入做准备,其中包括:
理论上来说,特征工程应该也归属于上一步,但是它太重要了,所以将它单独拿出来。kaggle社区对特征工程的重要性已经达成了共识,可以说最后结果的好坏,大部分就是由 特征工程 决定的,剩下部分应该是 调参 和 Ensemble 决定。特征工程的好坏主要是由 domain knowledge 决定的,但是大部分人可能并不具备这种知识,那么只能尽可能多的根据原来feature生成新的feature,然后让模型选择其中重要的feature。这里就又涉及到 feature selection , 有很多方法,比如backward,forward selection等等。我个人倾向于用 random forest的feature importance , 这里 有论文介绍了这种方法。
Model Ensemble有 Bagging , Boosting , Stacking ,其中Bagging和Boosting都算是 Bootstraping 的应用。 Bootstraping 的概念是对样本每次有放回的抽样,抽样K个,一共抽N次。
最后是我的两点心得吧
这篇文章是参加kaggle之后的第一次总结,描述了下kaggle的步骤,通用的知识点和技巧。希望在未来一个月中,能把xgboost和stacking研究应用下,然后再来update。希望大家有什么想法都能跟我交流下~~
update: 更新了关于类别特征的处理方式以及Boosting和Bagging的看法,还有stacking的内容。
劝退?这么好的方向为什么要劝退呢?高光谱方兴未艾,需求快速增长别把目光只停留在遥感上农业,工业/制造业,环保中的用途太多了毕业如果不好找工作,来我们公司,高薪诚聘!不同意其它回答中工业领域没有应用的意见。我自己本身就做了好几个工业领域高光谱应用。几乎所有的技术应用与实际的路径都是:科研-》工业-》民用从现在的科研情况来看,高光谱在确实在农业、工业中有很高的应用价值。尤其是现在的高光谱相机的价格越来越便宜,我之前买的国外相机,要20几万。现在国产的只要6-7万块,而且性能参数服务都挺好,所以大大增加了应用的可能。杭州彩谱高光谱相机尤其是现在机器学习的研发门槛变低,使得大多数应用都有了突破的可能。工业领域中,大量的需求是定性判别。比如说:废旧塑料分选。废旧塑料分选通常是对高光谱相机采集得到的目标塑料的光谱反射曲线进行聚类分析,进而分辨塑料的种类。高光谱相机最简单,买过来用就可以了。而对于最关键的聚类分析,由于开发人员的水平参差不齐,所以得到的效果也差强人意。现在可以直接使用第三方机器学习库:百度AI华为AI类似的方法也可以用在农产品的杂质分选上,比如木耳里的塑料,秸秆等等。我是河北唐山人,我家附近有很多种核桃、白果的农户。他们家里很多人都有色选机,就是根据颜色对白果(好的颜色白,不好的颜色发黄)进行分类,可以卖更高的价钱。高光谱相机可以用在水果的品质分选上,“褚橙”为什么每个都好吃?不是种植的水平高,是用高光谱机器选出来的。高光谱在这些方面的应用,还远远没有发掘,根本原因就是因为价格高。而国内优秀的高光谱相机生产商,通过技术进步和供应链完善,已经把价格降得非常低了。相对于芬兰SPECIM的20万的价格,国内的价格只要6万多一台。可以预见的是,近几年高光谱的应用推广速度会越来越快。更多的应用还有:工业机器视觉检测中的颜色检测,目前的机器视觉相机,都不能实现精确的颜色检测,但是使用高光谱相机,可以实现非常精确的颜色检测和非常微小的色差判别。真正意义上实现了替代人眼。工业领域中的缺陷检测,水果的耳机在制造中就是使用了高光谱相机去检测是否有溢胶情况发生,而这种微量的溢胶,用普通的机器视觉检测是无法发现的。类似的应用有太多了,所以,随着高光谱相机价格的降低,机器学习第三方库的成熟,会有越来越多工业领域都会有成熟的高光谱应用。所以,大有前途!努力干吧!
作者丨记忆的迷谷@知乎(已授权)来源丨编辑丨极市平台写在前面是的,今年的秋招确实是肉眼可见的难度增加:缩招、裁员、毕业生人数爆炸,这些关键字已然成为2023届秋招的代名词。竞争激烈,算法岗入坑的难度更是直线上升。卡第一学历、卡名校、卡重点实验室......这些“基本操作”早已司空见惯。在卷成麻花的2022年,一个没有上述背景、没有名校撑腰的普通科班小硕能入坑中大厂的CV算法岗吗?我的回答是:能,但是很难、很卷,且容错率较低。因为CV算法岗的竞争对手基本都在985分段,且动不动就是某C9高校的重点实验室。因为身边的人不走算法岗,所以全程基本靠自己摸索,期间遇到了各种困难、走了许多弯路。为了记录这段有意义的经历,同时给自己一样出身普通的师弟们(实验室没有师妹)提供CV算法岗的就业思路,将本人的整个秋招的真实历程分享给大家。【长文警告↓↓↓】导读:本篇文章主要分为以下几个章节:【背景】,【历程】主要介绍了本人秋招前的状态,以及从研究生入学到秋招的过程。【需要掌握的技能】从硬实力、软实力两个方面介绍秋招时可以增加自己竞争力的点。由于每个人的基础情况不同,CV算法岗也有较多细分方向,本章节仅供参考,大佬请直接略过。【总结】秋招的一些小的建议。补充说明: 1. 阅读文章之前,请务必了解“幸存者偏差”这一概念,CV算法岗的秋招形式严峻,请保持理智。 2. 本文的“普通”一词是指本科双非、硕士非985、非重点实验室、无顶会、投递岗位为CV算法岗的计算机科班应届研究生,并无冒犯之意。背景概述:本人本科双非软件工程专业,硕士普通211的计算机技术专业,目前研究方向是计算机视觉。秋招拿到【虹软、vivo、OPPO三家offer,均为计算机视觉类(CV)算法岗,有SP也有大白菜】(除去国企银行),和大佬们的offer没得比,但感觉基本接近自己的预期。(虽然已于9月获得虹软转正意向书,为了给自己的秋招不留遗憾,同时可以通过不同的offer明确自己在秋招大军的整体定位,所以坚持完整参与了秋招)。具体情况:身边的环境除了我的大大大师兄(高我三四届)拿了某中厂算法offer以外,我们实验室就再也没有人走过算法岗。包括同门在内的同届同学,也基本都是开发。师兄和同学也都劝退我走算法,改开发。在我找到第一份算法实习之前,大部分人都认为我选择这条路是一个头铁且愚蠢的行为,且常听到阴阳怪气的言论。每次刷知乎,总能看到“19年算法岗供大于求”、“20年算法岗诸神黄昏”、“21年算法岗灰飞烟灭”,今年又换了个四字词语 --“人间炼狱”。各路“过来人”也都是全方位劝退。打开网易新闻 查看精彩图片 好在自己的家人比较支持我自己做决定,只不过最后选择offer的时候,家人们曾劝我躺平一个随手拿的国企,放弃自己的专业,我要真想躺平还用的着这么卷么,大无语。总之,身边自始至终支持我走算法岗的,四舍五入就只剩自己了。没关系,意料之中罢了。自己拥有的一些条件导师不会push我们给他发论文,且只要完成规定的任务,就允许我们自己出去找实习。【秋招上岸的关键性因素】实验室有免费使用的入门级计算资源,虽然只是1080Ti这种级别的显卡,且当时还要和师兄一起用。但是拿来学习跑跑实验还是绰绰有余的。同时家里赞助更新了一台2060GPU的笔记本,用来本地调试也挺好使。学校的线下课程在研一期间全部上完,研一课程结束就可以做实习早鸟。历程本节按照时间线的顺序,叙述了本人历时两年的秋招战线。【初识算法】2020年9月~2020年10月结束摆烂、确定方向阶段。研究生入学,之前联系的导师莫名其妙把我鸽 了,不得不重新找导师。我的选择标准有两个:一是教授,二是允许实习。在本科国奖托底和自己死皮赖脸的坚持下,我现在的导师给加了一个名额,顺利入组。导师给我明确了CV的研究方向,同时分享了一些资料(因为才学疏浅,当时没能看懂,后面就跑去B站知乎学习了),每周组会汇报自己的学习进度。也是这个时候发现自己对CV挺感兴趣的,也是初生牛犊不怕虎,确定自己走算法岗的方向。【走出迷茫】2020年11月~2021年2月夯实基础阶段。因为导师安排的任务主要偏学术,我也意识到:如果仅仅靠导师的指导、按部就班的学习就去找算法岗工作,是远远不够的。于是,自己找到了一位前辈指点自己系统地入门深度学习。之后制定学习计划、学习基础铺垫知识、筛选和阅读paper、debug源码、参照已开源的工作来复现未开源的论文......在完成导师布置的任务之余,花了大量时间,算是搞明白深度学习的路子了。在此期间,完成导师安排的项目、自己找一些开源的项目补充学习,可以加深自己的理解同时还能润色简历。打开网易新闻 查看精彩图片 当时的部分学习计划(分类&检测篇)因为搞算法除了python的基本要求外,C++多少也要会一些。也是从这个时候,制定了刷力扣的长期计划,强迫自己学习C++,编程题也全部用C++写。刷题不求多,但重在把思维和语法熟练度锻炼好。【稳扎稳打】2021年3月~2021年5月备战实习阶段。过年给自己放了半个月假,开始着手找第一段实习。听了师兄的建议(当时师兄在鹅厂实习搞开发,respect),开始刷牛客面经,查漏补缺,力扣保证一周刷七题。同时系统地整理之前学习的笔记,也是这个时候我写了知乎的第一篇博客,并立下了一年写完50篇技术博客的flag(已于2022年4月达成)。【初露锋芒】2021年5月~2021年6月第一段实习的投递、面试阶段。第一次投实习没有经验,先投了一些难度拉满的大厂:商汤、字节都给了面试,但是面得稀烂,商汤的面试官更是在无coding题的情况下问了我两个小时的问题,面试结束后当场自闭。后来总结了面试失败的经验,也补上了自己面试中没有答出来的知识点。现在想想,当时的我真的是愚蠢至极,就应该先面小厂,积累面试经验,起码不至于面试过后脏了自己的大厂面评(因为秋招的时候,这两家秒挂我的简历,应该是自己作没的 )。经历了十多场面试,也积累了足够的经验,最终自己如愿拿到了vivo AI研究院的算法岗实习offer。打开网易新闻 查看精彩图片 【渐入佳境】2021年7月~2022年1月第一段实习。在我的软磨硬泡下,导师先是同意我出去实习半年(美滋滋)。入职以后,令人窒息的压力接憧而至:老大给我的研究方向是神经网络结构搜索(NAS)方向 -- 一个自己从来没听说过的预研方向,与此同时,同组的实习生来自武大,还比我早来一个月,需要尽快跟进她的进度。于是,自己白天调研相关工作、复现一些论文、慢慢接手项目,晚上加班读源码、刷博客(卷到了旁边的实习生,实在抱歉)。第一个月顶着压力,总算把进度拉上来,项目步入正轨。9月,恰好看到Kaggle有个CV新赛,恰好这时候蓝厂取消大小周,于是就报名参加了。之后差不多两个月的时间,白天赶项目,晚上和周末搞比赛。11月,项目需要优化的模型计算量首次降低到100M以下,同时比赛也拿到了铜牌(第一次参赛,拉胯的成绩,但尽力了)。后面的时间就是边实习边准备开题,顺利完成了实习阶段的任务,拿到了口头转正(可惜AI研究院今年不招人,靠自己重新走流程拿的影像算法部,权衡了一下,还是想待在自己熟悉且喜欢的组),与nice的同事们告别。【一波三折】2022年2月~2022年5月向导师争取了第二次实习的机会,开始着手准备暑期实习,同时和之前实习的武大同学合作一篇论文。但没高兴多久,上海的疫情就爆发了,几乎整个上海的实习HC都没了,与此同时学校疫情封楼,天天牢饭吃到心态爆炸,差点想转开发(庆幸自己没转)。虽然有了一段大厂实习经历,但找第二段实习甚至更艰难:收到一堆海笔,只收到了三家面试(某周的周一面了美团,面试官很nice,面试也顺利,他还表达了希望我面试通过后早点过去实习,结果周五反手收到个感谢信☺)。磕磕绊绊拿到了第二份offer -- 虹软的计算机视觉算法岗实习。打开网易新闻 查看精彩图片 【稳中求胜】2022年5月~2022年9月初第二段实习。这次研究方向是视线检测,因为在蓝厂的实习积累了许多项目经验,所以无论是搭环境还是上手项目都很快。我们组所有的实习生每周都会单独开个周会,可以了解大家的进展,同时还能偷学一些技巧,因此在这边自己成长的速度很快。和我搭档的实习生是天大的,我俩都做视线方向,经常一起讨论项目中遇到的难点,如我mentor所说,1+1 > 2,无论是实习还是秋招,找个伴共同进步总好过孤军奋战。7月~9月初,工作时间肝项目,下班以后的空闲时间刷题、刷面经,准备转正答辩,投提前批(算法提前批卡学校,基本全泡池子),投秋招,基本每天搞到11点才休息(转正名额有限,不敢做赌狗)。8月底顺利通过转正答辩,9月初拿到了虹软为数不多的转正意向书。【冲刺终点】2022年9月~2022年10月收获的季节。实习结束,导师召回返校,一边做导师安排的工作一边搞秋招。总共笔试了二三十家公司,面了六七家(因为不是985、研究方向有差异,也被拒了蛮多)。最后到手虹绿蓝三家offer,于十月中旬尘埃落定。平时经常做RGB图像算法,没想到拿的offer也刚好涵盖RGB三种颜色 ,或许这就是缘分吧。需要掌握的技能 硬实力篇1.基础知识入坑算法岗的基本功。推荐李航老师的《统计学习方法》以及周志华老师的西瓜书。入门深度学习推荐斯坦福《CS231N》课程(在B站上可以找到中文字幕版)。不太推荐一上来啃《深度学习》(花书),对小白不友好,但是后期可以当工具书使用。确定了自己的研究 / 学习的方向后,可以在各类博客上找到对应方向大牛整理的paper list,选取一些经典必看的论文,并在Github中找到对应的源码阅读【一定要看源码,一定要看源码,一定要看源码】,面试的时候,资深的面试官经常会问一些细节问题,而只有你理解了源码是怎么实现的前提下,应对这些问题才能游刃有余。在学习时,要及时总结和整理,将论文里的知识精炼成自己笔记的过程,其实就相当于模拟回答面试官问题的过程。整理的东西多了,就变成的所谓的“八股文”,相较于开发,算法的面经更灵活,面试的问题也因人而异,一份属于自己的“八股”很重要,同时它也是实习和秋招面试前最有价值的复习资料。2.实习如果导师允许的话,【一定要尽早出去实习,一定要尽早出去实习,一定要尽早出去实习】。实习经历越丰富、实习公司的层次越高、实习的时间越久,你的竞争力越强。曾经有HR和我说过,CV算法岗的普通分段同学很少能进流程,如果没有实习经历,自己大概率会被淘汰。PS:实验室不给实习的同学,也不要灰心,实习不是入职算法岗的必要条件,但是如果你但凡有机会实习,一定要好好把握。3.项目冷知识:在简历和面试中把自己的论文以项目的形式描述,面试官会更感兴趣。“如果你发表的不是顶会,那么我更希望你用项目的形式叙述你的作品。”这是面试时一位面试官的原话。所以在这里,我把自己的论文归类为项目,且当我把论文以项目的形式更新到简历中,后面的面试会问到这部分工作的频率明显增加。很多人觉得自己的项目可能不是那么出彩,觉得拿不出手。在这里完全可以打消这个顾虑,我们投的又不是天才少年计划,所以只要能把自己的项目讲明白,言之有理,都可以作为一个加分项。在面试前,一定要梳理好自己的项目,例如解决的问题、应用场景、创新点、难点、数据是怎么处理的、badcase是怎么优化的、后面还能改进的地方......讲项目的时候一定要自信、有条理,建议面试前可以多试讲几次录个音。4.比赛打比赛有两种策略:第一种策略:运气好,碰到了自己熟悉方向的比赛,在比赛中尽可能刷高自己的名次。第二种策略:只有自己感到陌生的方向(不过也是CV类比赛),用最快的时间上手该方向,然后尽可能深入,争
可以的,博远论文编辑部可以在此方面为你解忧。请点击我的用户名给我留言。
你参加的是哪的比赛?说清楚点!自己写的论文是可以发表的!你放心的发吧!!
个人发表的论文重要一些,集体项目如果你做了一些和专业相关的工作,也介绍一下,这样老师很可能就你所说的论文和项目内容进行提问,你也成功的引导了复试老师的话题。
你说的这两种情况都可以