最近挤出时间,用python在kaggle上试了几个project,有点体会,记录下。
EDA,也就是对数据进行探索性的分析,一般就用到pandas和matplotlib就够了。EDA一般包括:
在这步完成之后,要对以下几点有大致了解
数据预处理,就是将数据处理下,为模型输入做准备,其中包括:
理论上来说,特征工程应该也归属于上一步,但是它太重要了,所以将它单独拿出来。kaggle社区对特征工程的重要性已经达成了共识,可以说最后结果的好坏,大部分就是由 特征工程 决定的,剩下部分应该是 调参 和 Ensemble 决定。特征工程的好坏主要是由 domain knowledge 决定的,但是大部分人可能并不具备这种知识,那么只能尽可能多的根据原来feature生成新的feature,然后让模型选择其中重要的feature。这里就又涉及到 feature selection , 有很多方法,比如backward,forward selection等等。我个人倾向于用 random forest的feature importance , 这里 有论文介绍了这种方法。
Model Ensemble有 Bagging , Boosting , Stacking ,其中Bagging和Boosting都算是 Bootstraping 的应用。 Bootstraping 的概念是对样本每次有放回的抽样,抽样K个,一共抽N次。
最后是我的两点心得吧
这篇文章是参加kaggle之后的第一次总结,描述了下kaggle的步骤,通用的知识点和技巧。希望在未来一个月中,能把xgboost和stacking研究应用下,然后再来update。希望大家有什么想法都能跟我交流下~~
update: 更新了关于类别特征的处理方式以及Boosting和Bagging的看法,还有stacking的内容。
劝退?这么好的方向为什么要劝退呢?高光谱方兴未艾,需求快速增长别把目光只停留在遥感上农业,工业/制造业,环保中的用途太多了毕业如果不好找工作,来我们公司,高薪诚聘!不同意其它回答中工业领域没有应用的意见。我自己本身就做了好几个工业领域高光谱应用。几乎所有的技术应用与实际的路径都是:科研-》工业-》民用从现在的科研情况来看,高光谱在确实在农业、工业中有很高的应用价值。尤其是现在的高光谱相机的价格越来越便宜,我之前买的国外相机,要20几万。现在国产的只要6-7万块,而且性能参数服务都挺好,所以大大增加了应用的可能。杭州彩谱高光谱相机尤其是现在机器学习的研发门槛变低,使得大多数应用都有了突破的可能。工业领域中,大量的需求是定性判别。比如说:废旧塑料分选。废旧塑料分选通常是对高光谱相机采集得到的目标塑料的光谱反射曲线进行聚类分析,进而分辨塑料的种类。高光谱相机最简单,买过来用就可以了。而对于最关键的聚类分析,由于开发人员的水平参差不齐,所以得到的效果也差强人意。现在可以直接使用第三方机器学习库:百度AI华为AI类似的方法也可以用在农产品的杂质分选上,比如木耳里的塑料,秸秆等等。我是河北唐山人,我家附近有很多种核桃、白果的农户。他们家里很多人都有色选机,就是根据颜色对白果(好的颜色白,不好的颜色发黄)进行分类,可以卖更高的价钱。高光谱相机可以用在水果的品质分选上,“褚橙”为什么每个都好吃?不是种植的水平高,是用高光谱机器选出来的。高光谱在这些方面的应用,还远远没有发掘,根本原因就是因为价格高。而国内优秀的高光谱相机生产商,通过技术进步和供应链完善,已经把价格降得非常低了。相对于芬兰SPECIM的20万的价格,国内的价格只要6万多一台。可以预见的是,近几年高光谱的应用推广速度会越来越快。更多的应用还有:工业机器视觉检测中的颜色检测,目前的机器视觉相机,都不能实现精确的颜色检测,但是使用高光谱相机,可以实现非常精确的颜色检测和非常微小的色差判别。真正意义上实现了替代人眼。工业领域中的缺陷检测,水果的耳机在制造中就是使用了高光谱相机去检测是否有溢胶情况发生,而这种微量的溢胶,用普通的机器视觉检测是无法发现的。类似的应用有太多了,所以,随着高光谱相机价格的降低,机器学习第三方库的成熟,会有越来越多工业领域都会有成熟的高光谱应用。所以,大有前途!努力干吧!
作者丨记忆的迷谷@知乎(已授权)来源丨编辑丨极市平台写在前面是的,今年的秋招确实是肉眼可见的难度增加:缩招、裁员、毕业生人数爆炸,这些关键字已然成为2023届秋招的代名词。竞争激烈,算法岗入坑的难度更是直线上升。卡第一学历、卡名校、卡重点实验室......这些“基本操作”早已司空见惯。在卷成麻花的2022年,一个没有上述背景、没有名校撑腰的普通科班小硕能入坑中大厂的CV算法岗吗?我的回答是:能,但是很难、很卷,且容错率较低。因为CV算法岗的竞争对手基本都在985分段,且动不动就是某C9高校的重点实验室。因为身边的人不走算法岗,所以全程基本靠自己摸索,期间遇到了各种困难、走了许多弯路。为了记录这段有意义的经历,同时给自己一样出身普通的师弟们(实验室没有师妹)提供CV算法岗的就业思路,将本人的整个秋招的真实历程分享给大家。【长文警告↓↓↓】导读:本篇文章主要分为以下几个章节:【背景】,【历程】主要介绍了本人秋招前的状态,以及从研究生入学到秋招的过程。【需要掌握的技能】从硬实力、软实力两个方面介绍秋招时可以增加自己竞争力的点。由于每个人的基础情况不同,CV算法岗也有较多细分方向,本章节仅供参考,大佬请直接略过。【总结】秋招的一些小的建议。补充说明: 1. 阅读文章之前,请务必了解“幸存者偏差”这一概念,CV算法岗的秋招形式严峻,请保持理智。 2. 本文的“普通”一词是指本科双非、硕士非985、非重点实验室、无顶会、投递岗位为CV算法岗的计算机科班应届研究生,并无冒犯之意。背景概述:本人本科双非软件工程专业,硕士普通211的计算机技术专业,目前研究方向是计算机视觉。秋招拿到【虹软、vivo、OPPO三家offer,均为计算机视觉类(CV)算法岗,有SP也有大白菜】(除去国企银行),和大佬们的offer没得比,但感觉基本接近自己的预期。(虽然已于9月获得虹软转正意向书,为了给自己的秋招不留遗憾,同时可以通过不同的offer明确自己在秋招大军的整体定位,所以坚持完整参与了秋招)。具体情况:身边的环境除了我的大大大师兄(高我三四届)拿了某中厂算法offer以外,我们实验室就再也没有人走过算法岗。包括同门在内的同届同学,也基本都是开发。师兄和同学也都劝退我走算法,改开发。在我找到第一份算法实习之前,大部分人都认为我选择这条路是一个头铁且愚蠢的行为,且常听到阴阳怪气的言论。每次刷知乎,总能看到“19年算法岗供大于求”、“20年算法岗诸神黄昏”、“21年算法岗灰飞烟灭”,今年又换了个四字词语 --“人间炼狱”。各路“过来人”也都是全方位劝退。打开网易新闻 查看精彩图片 好在自己的家人比较支持我自己做决定,只不过最后选择offer的时候,家人们曾劝我躺平一个随手拿的国企,放弃自己的专业,我要真想躺平还用的着这么卷么,大无语。总之,身边自始至终支持我走算法岗的,四舍五入就只剩自己了。没关系,意料之中罢了。自己拥有的一些条件导师不会push我们给他发论文,且只要完成规定的任务,就允许我们自己出去找实习。【秋招上岸的关键性因素】实验室有免费使用的入门级计算资源,虽然只是1080Ti这种级别的显卡,且当时还要和师兄一起用。但是拿来学习跑跑实验还是绰绰有余的。同时家里赞助更新了一台2060GPU的笔记本,用来本地调试也挺好使。学校的线下课程在研一期间全部上完,研一课程结束就可以做实习早鸟。历程本节按照时间线的顺序,叙述了本人历时两年的秋招战线。【初识算法】2020年9月~2020年10月结束摆烂、确定方向阶段。研究生入学,之前联系的导师莫名其妙把我鸽 了,不得不重新找导师。我的选择标准有两个:一是教授,二是允许实习。在本科国奖托底和自己死皮赖脸的坚持下,我现在的导师给加了一个名额,顺利入组。导师给我明确了CV的研究方向,同时分享了一些资料(因为才学疏浅,当时没能看懂,后面就跑去B站知乎学习了),每周组会汇报自己的学习进度。也是这个时候发现自己对CV挺感兴趣的,也是初生牛犊不怕虎,确定自己走算法岗的方向。【走出迷茫】2020年11月~2021年2月夯实基础阶段。因为导师安排的任务主要偏学术,我也意识到:如果仅仅靠导师的指导、按部就班的学习就去找算法岗工作,是远远不够的。于是,自己找到了一位前辈指点自己系统地入门深度学习。之后制定学习计划、学习基础铺垫知识、筛选和阅读paper、debug源码、参照已开源的工作来复现未开源的论文......在完成导师布置的任务之余,花了大量时间,算是搞明白深度学习的路子了。在此期间,完成导师安排的项目、自己找一些开源的项目补充学习,可以加深自己的理解同时还能润色简历。打开网易新闻 查看精彩图片 当时的部分学习计划(分类&检测篇)因为搞算法除了python的基本要求外,C++多少也要会一些。也是从这个时候,制定了刷力扣的长期计划,强迫自己学习C++,编程题也全部用C++写。刷题不求多,但重在把思维和语法熟练度锻炼好。【稳扎稳打】2021年3月~2021年5月备战实习阶段。过年给自己放了半个月假,开始着手找第一段实习。听了师兄的建议(当时师兄在鹅厂实习搞开发,respect),开始刷牛客面经,查漏补缺,力扣保证一周刷七题。同时系统地整理之前学习的笔记,也是这个时候我写了知乎的第一篇博客,并立下了一年写完50篇技术博客的flag(已于2022年4月达成)。【初露锋芒】2021年5月~2021年6月第一段实习的投递、面试阶段。第一次投实习没有经验,先投了一些难度拉满的大厂:商汤、字节都给了面试,但是面得稀烂,商汤的面试官更是在无coding题的情况下问了我两个小时的问题,面试结束后当场自闭。后来总结了面试失败的经验,也补上了自己面试中没有答出来的知识点。现在想想,当时的我真的是愚蠢至极,就应该先面小厂,积累面试经验,起码不至于面试过后脏了自己的大厂面评(因为秋招的时候,这两家秒挂我的简历,应该是自己作没的 )。经历了十多场面试,也积累了足够的经验,最终自己如愿拿到了vivo AI研究院的算法岗实习offer。打开网易新闻 查看精彩图片 【渐入佳境】2021年7月~2022年1月第一段实习。在我的软磨硬泡下,导师先是同意我出去实习半年(美滋滋)。入职以后,令人窒息的压力接憧而至:老大给我的研究方向是神经网络结构搜索(NAS)方向 -- 一个自己从来没听说过的预研方向,与此同时,同组的实习生来自武大,还比我早来一个月,需要尽快跟进她的进度。于是,自己白天调研相关工作、复现一些论文、慢慢接手项目,晚上加班读源码、刷博客(卷到了旁边的实习生,实在抱歉)。第一个月顶着压力,总算把进度拉上来,项目步入正轨。9月,恰好看到Kaggle有个CV新赛,恰好这时候蓝厂取消大小周,于是就报名参加了。之后差不多两个月的时间,白天赶项目,晚上和周末搞比赛。11月,项目需要优化的模型计算量首次降低到100M以下,同时比赛也拿到了铜牌(第一次参赛,拉胯的成绩,但尽力了)。后面的时间就是边实习边准备开题,顺利完成了实习阶段的任务,拿到了口头转正(可惜AI研究院今年不招人,靠自己重新走流程拿的影像算法部,权衡了一下,还是想待在自己熟悉且喜欢的组),与nice的同事们告别。【一波三折】2022年2月~2022年5月向导师争取了第二次实习的机会,开始着手准备暑期实习,同时和之前实习的武大同学合作一篇论文。但没高兴多久,上海的疫情就爆发了,几乎整个上海的实习HC都没了,与此同时学校疫情封楼,天天牢饭吃到心态爆炸,差点想转开发(庆幸自己没转)。虽然有了一段大厂实习经历,但找第二段实习甚至更艰难:收到一堆海笔,只收到了三家面试(某周的周一面了美团,面试官很nice,面试也顺利,他还表达了希望我面试通过后早点过去实习,结果周五反手收到个感谢信☺)。磕磕绊绊拿到了第二份offer -- 虹软的计算机视觉算法岗实习。打开网易新闻 查看精彩图片 【稳中求胜】2022年5月~2022年9月初第二段实习。这次研究方向是视线检测,因为在蓝厂的实习积累了许多项目经验,所以无论是搭环境还是上手项目都很快。我们组所有的实习生每周都会单独开个周会,可以了解大家的进展,同时还能偷学一些技巧,因此在这边自己成长的速度很快。和我搭档的实习生是天大的,我俩都做视线方向,经常一起讨论项目中遇到的难点,如我mentor所说,1+1 > 2,无论是实习还是秋招,找个伴共同进步总好过孤军奋战。7月~9月初,工作时间肝项目,下班以后的空闲时间刷题、刷面经,准备转正答辩,投提前批(算法提前批卡学校,基本全泡池子),投秋招,基本每天搞到11点才休息(转正名额有限,不敢做赌狗)。8月底顺利通过转正答辩,9月初拿到了虹软为数不多的转正意向书。【冲刺终点】2022年9月~2022年10月收获的季节。实习结束,导师召回返校,一边做导师安排的工作一边搞秋招。总共笔试了二三十家公司,面了六七家(因为不是985、研究方向有差异,也被拒了蛮多)。最后到手虹绿蓝三家offer,于十月中旬尘埃落定。平时经常做RGB图像算法,没想到拿的offer也刚好涵盖RGB三种颜色 ,或许这就是缘分吧。需要掌握的技能 硬实力篇1.基础知识入坑算法岗的基本功。推荐李航老师的《统计学习方法》以及周志华老师的西瓜书。入门深度学习推荐斯坦福《CS231N》课程(在B站上可以找到中文字幕版)。不太推荐一上来啃《深度学习》(花书),对小白不友好,但是后期可以当工具书使用。确定了自己的研究 / 学习的方向后,可以在各类博客上找到对应方向大牛整理的paper list,选取一些经典必看的论文,并在Github中找到对应的源码阅读【一定要看源码,一定要看源码,一定要看源码】,面试的时候,资深的面试官经常会问一些细节问题,而只有你理解了源码是怎么实现的前提下,应对这些问题才能游刃有余。在学习时,要及时总结和整理,将论文里的知识精炼成自己笔记的过程,其实就相当于模拟回答面试官问题的过程。整理的东西多了,就变成的所谓的“八股文”,相较于开发,算法的面经更灵活,面试的问题也因人而异,一份属于自己的“八股”很重要,同时它也是实习和秋招面试前最有价值的复习资料。2.实习如果导师允许的话,【一定要尽早出去实习,一定要尽早出去实习,一定要尽早出去实习】。实习经历越丰富、实习公司的层次越高、实习的时间越久,你的竞争力越强。曾经有HR和我说过,CV算法岗的普通分段同学很少能进流程,如果没有实习经历,自己大概率会被淘汰。PS:实验室不给实习的同学,也不要灰心,实习不是入职算法岗的必要条件,但是如果你但凡有机会实习,一定要好好把握。3.项目冷知识:在简历和面试中把自己的论文以项目的形式描述,面试官会更感兴趣。“如果你发表的不是顶会,那么我更希望你用项目的形式叙述你的作品。”这是面试时一位面试官的原话。所以在这里,我把自己的论文归类为项目,且当我把论文以项目的形式更新到简历中,后面的面试会问到这部分工作的频率明显增加。很多人觉得自己的项目可能不是那么出彩,觉得拿不出手。在这里完全可以打消这个顾虑,我们投的又不是天才少年计划,所以只要能把自己的项目讲明白,言之有理,都可以作为一个加分项。在面试前,一定要梳理好自己的项目,例如解决的问题、应用场景、创新点、难点、数据是怎么处理的、badcase是怎么优化的、后面还能改进的地方......讲项目的时候一定要自信、有条理,建议面试前可以多试讲几次录个音。4.比赛打比赛有两种策略:第一种策略:运气好,碰到了自己熟悉方向的比赛,在比赛中尽可能刷高自己的名次。第二种策略:只有自己感到陌生的方向(不过也是CV类比赛),用最快的时间上手该方向,然后尽可能深入,争
kaggle比赛含金量在业界是很高的。有兴趣的可以试着参加一下,提升自己能力的同时又可以开拓视野,不断向许多强者学习。
所以不论你是求职者还是学生,如果对数据科学感兴趣,都可以利用Kaggle来锻炼自己的技能,提升自己的背景。简历中如果有这样一份为“准东家”定制的Kaggle项目经历,定能提升梦校、大厂Offer的命中率。
所以不论你是求职者还是学生,如果对数据科学感兴趣,都可以利用Kaggle来锻炼自己的技能,提升自己的背景。简历中如果有这样一份为“准东家”定制的Kaggle项目经历,定能提升梦校、大厂Offer的命中率。
参加过几次,只拿过几个前10%。
下面是我的一些个人经验:
1. 一定做Ensemble,甚至是对submissions做ensemble。
2. 目的如果单纯是拿好的排名,那么就找人多的比赛参加,因为那些参加人数上千的比赛里面大批僵尸参赛者,超过他们就可以进25%了。
3. 对大多数比赛来说,Feature Engineering比选用什么模型更重要
4. 多看论坛,大家会在比赛进行中讨论很多泛泛的思路,对自己可能有帮助。有时候会有人发布比较好的Beat the benchmark代码,仔细思考为什么这个模型能够work,在上面涂涂改改有时候效果更好。
5. 永远相信自己的cross validation结果,甚于public leaderboard,结束前后的榜单常常震动巨大,具体例子参见 Description - Africa Soil Property Prediction Challenge 和 Description - Higgs Boson Machine Learning Challenge6.
每次比赛最有价值的东西就是结束之后的方法分享帖,大家的方法都很不一样,挑一个说得比较全面清晰的方法,自己尝试重现一个一样或者接近的效果,然后再尝试改进它,这个过程能学到非常多东西。
Kaggle主要是以Data Mining的比赛为主,那么这个答案就非常直接了:Feature Engineering无数经验告诉我们,做Kaggle比赛如果是抱着Machine Learning的态度,沉迷于facny的模型而忽略数据本身,一定会死得很惨很惨!
当然,基本的ML知识还是有的。在比赛中,最常用的分类器一般是Gradient Boosting Tree(GBDT)和Random Forest(对,你没看错,不是那个在教科书中推Dual时让很多人痛不欲生的SVM)一些常见的预处理技巧,比如PCA,KMeans,TF/IDF,Hashing等等都还是必须的。这里就不展开讲了。
最后,但是非常关键的一点是Ensemble 从KDD Cup到Imagenet,我从来没见过ensemble不会改善结果的情况,只是多与少的问题。不做ensemble就意味着你自己告别了一大块宝藏。
可以,现在的学术界已经没有像以前学术界那么严肃了,只要是有用的数据,都是可以用来做学术研究的。发表学术论文只是一个学术成果的展示,他不包含研究过程。只要你不发表什么敏感话题、对社会有害的内容,一般都是没有什么太大的问题(其实杂志社也不会收这些文章),相关发表方面有疑问的可以私聊我。
互联网+(创新创业类大赛,目前可以说是最火的比赛之一,甚至一些学校让学生用毕设参赛,和挑战杯的参赛在部分项目上重叠,高新技术、工程、新材料、互联网、人工智能等项目比较吸引人)(综合类+偏理工)挑战杯-大挑(学术作品大赛,部分顶级高校的作品可以说是一个实验室的结晶了,比如一个学术作品转化成了多少专利、多少paper、有没有创造出什么价值?一般也是理工科专业的学术作品容易做好)(综合类+偏理工)挑战杯-小挑(创业大赛,和互联网+类似,很多企业都愿意与互联网+或者人工智能等项目挂钩)(综合类+偏理工)ACM-ICPC(团队编程大赛,应该是本科阶段可以参与的含金量较高的程序设计大赛赛事,但是在211以下的院校普及程度一般,目前广西赛区由桂电和广西大学开始积极筹备ACM类的程序设计大赛,于18年五月第一次举办省赛,隶属于CCPC。在今年10月底的时候,桂电成功举办了一次CCPC的分站赛,虽然其中出现了一些问题,不过这也代表了西部地区越来越重视程序设计大赛了。然而,很多沿海地区省份,早就以WF作为最终的目标了,比如杭州电子科技大学就是一所值得所有普通高校学习的一所大学。由于良好的训练,去年和今年都有着进入WF的好成绩。不过很欣慰这19大竞赛中没有忘记这个比赛,在以前的很多所谓的国家级A类榜单中,都没有这项项目,让很多老师感到非常恼火。)(计算机/软件工程等)数学建模(应该是普及程度或者说参与学校最广的基础学科赛事之一,其实都想把这个之一去掉。可能你问一名稍微成绩好点的本科生,问他有没有参加或者听说过数学建模竞赛,我想大多数人都会给予肯定的回答。不论是官方组织、还是培训机构、甚至是独立个人,在数模培训上投入的应该是最多的了。这项比赛影响了无数学生的保研资格、国奖特奖评选、甚至考研复试。其投入成本低,获奖收益高,成了大多数大学生都想参与的一项赛事。而且比赛参与院校普度众生,不管是清北还是大专都有院校参与,也都有院校获得国家一等奖。2018年的国赛查重,查违纪,死掉了很多队伍,这也为未来的比赛蒙上了一层阴影。。。)(综合类+应用数学/统计学+经管+计算机/软件工程)电子设计(这项比赛是电子类在19大竞赛中的血统比较纯正的一个比赛了,桂电在这个方面是十分重视的,每年大概能出10+的国家一等奖。最近这些年中,桂电和东南大学、电子科技大学并列全国一等奖数全国第一。从另外一个角度来说,电子设计竞赛更多地考察一个学校的精心准备程度,这一点和数学建模竞赛有点类似,精心准备的院校肯定比裸考院校要强很多。比如去年令人惊艳的中国计量大学出现了满额全国一等奖的情况。作为电子系的一名成员,在本科阶段基本上没有参与过电子设计竞赛多多少少有一些可惜,不过比赛的大体流程还是清楚一些的。比赛分为第一阶段和第二阶段。第一阶段为四天三夜做一个作品出来,要求学生在不受外界干扰的前提下独立地做出来。做好上报,进入第二阶段,也就是彻底封闭设计电路阶段,很多基本功不扎实的学生,这一块就凉凉,这样很难拿到国家一等奖)(电子/自动化)化学实验(不敢乱写,我没有参与过任何和化学类相关的赛事,只能作为外行来看看这个比赛了,这个比赛的介绍:中国全国大学生化学实验邀请赛是我国高等学校化学学科最高级别赛事,由教育部高等学校化学教育研究中心主办。该赛事旨在推动我国高等学校化学实验教学模式、教学内容、教学方法的改革,探索培养创新型化学人才的思路、途径和方法,以提高我国化学实验教学总体水平。所以,放在评价体系表应该是不错的选择)(化学类、化工类)临床技能(不能乱写的比赛,同样属于知识盲区,如果有医学部的朋友参与过这项比赛,可以补充一些自己对于比赛的看法。看了一些互联网上的资料,认为这应该是医学学生比较重要的一项比赛了,所以项比赛放在这个榜单里面也是比较合理的)(医学类)机械创新(机械创新设计大赛(这个比赛被传为是大学生四大竞赛之一。是教育部高等教育司批准,教育部高等学校机械学科教学指导委员会主办的一项赛事。在传统工科里面认可度也是非常高的一个比赛,而且这个比赛很注意创新与模型的实物展示。因为都是同一个题目,可能全国好多队伍做的千篇一律,如果你有出其不意的想法,那么就是团队脱颖而出的机会。我觉着这个比赛很重要的是过程虽然艰辛,但如果能咬牙坚持下来,可以学到很多东西,而且如果能拿到国一的奖项,也很可能会被珍藏在学校的展览馆呢哈哈)(机械类、机电类、电子/自动化类)结构设计广告艺术智能汽车交通科技三创赛节能减排工程训练物流设计外研社杯-演讲(我觉得通过外研社杯演讲大赛来作为英语比赛的代表,虽然可行,但是也值得讨论。首先,演讲比赛就不单单是外研社杯一家,有很多类似的比赛,比如21世纪杯同样含金量也不错。其次,外研社杯还有新增加的阅读和写作大赛,我觉得也非常考验一个学生的功底。再次,外研社杯还有一项我觉得最有意思的比赛,即为辩论赛,而且赛制比较长,更能筛选出英文水平较好的综合选手。不过演讲比赛确实给的指标很少,一所大学最多派其中1-2名选手参赛,基本上都是层层选拔,层层PK,可以算得上是每个学校的佼佼者。最后不论是省赛还是国赛都非常考验一个选手的综合素质。在这场比赛中,我止步省级最终PK环节,没拿到特等,不过也算满足了,和其他专业演讲的选手相比,我在最终决赛和他们还有一些差距。外研社杯的演讲为即兴演讲,基本上拿到题目后准备一小小就需要上台演讲,因此非常考验一个学生的背景积累和英文功底。如果不是我抽到的题目和我本身有很大关系,我想或许在比赛中,我未必比得过很多选手。还有演讲的仪表也挺重要的,由于有做报告的经验,在台上不算紧张,演讲还挺流畅的。后面就是回答评委问题,这个就需要听力过硬了,如果能流畅回答所有的问题,那么会给评委一个良好的印象。大概这个比赛就是如此吧,挺有意思的)职校技能上述19大竞赛在最近这些年可能会成为高校越来越重视的比赛,也就是在竞赛评奖评优的活动中逐渐往这上面靠拢。但是这并不意味着每所大学对于竞赛等级的划分都是如此。所以最为关键的还是自己寻找自己学工部关于评奖评优相关规定,再结合这个19大竞赛榜单,做出正确的取舍。不过总体而言,这些比赛的还是主要以工程类学科为导向,因此在工科大学就读的同学,在很多学科竞赛上参加的氛围会较为浓厚一些。最后,我来谈谈我对于本科生竞赛的特点的总结,我将大学生学科竞赛主要分为以下三类:第一类:学科理论型竞赛这一类比赛大多为考试型的比赛,而且一般为个人赛。当然也有类似程序设计大赛这样的团队赛。这项比赛非常看重一名学生的理论功底以及基本功扎实的情况。所以参与这类比赛想要取得较为出色的成绩,一般而言是不太容易的,而且比较令人头疼的是,这一类比赛在很多高校的文件中和其他类型的比赛相比,往往不是特别受到重视,因此有可能出现吃力不讨好的现象。这类比赛由于注重基本功,甚至吃老本的情况出现,因此决赛一等奖的选手大多来自本科不错的院校。如果自己的基础不是特别扎实,除非特别感兴趣之外,不建议在这上面钻太多的牛角尖,很有可能出现效率低下甚至对这个学科失去兴趣的可能。对于本科生来说,这类比赛基本上选择一项钻研即可,除非基础十分扎实。而且,不建议跨专业参与,强行越级打怪这样的事情出现也不太好。比如工科生作死参加一些数学类比赛就会非常难受,当然想感受氛围除外。这类比赛的获奖名单很大概率就是学校实力排名榜单。比赛的结果一般也为绝对实力,当然在判卷等问题上可能存在一定的误差,但是还是相对公平的。代表比赛:丘成桐大学生数学竞赛(这个大家看看就好。。。数学巨佬无视我吧)、ACM-ICPC、CCPC、全国大学生周培源力学竞赛、全国大学生数学竞赛、全国大学生英语竞赛、外研社杯全国大学生英语(阅读、写作、演讲、辩论)大赛、中金所杯全国大学生金融知识大赛等。第二类:学科应用型竞赛这一类比赛同样是短时间(一般为3-4天)作品赛,作品的形式可能是一篇学术报告(比如数学建模),也可能是提交一个可以实现一些功能的作品(电子设计、机械创新)甚至可能只是一张海报或者一份PPT。这类成果多为中小型成果,并且比较粗糙,无法真正实现应用甚至转化成产品,但是可以较好地反映学生解决问题的能力。这类比赛一般是团队赛,也是大学生主流竞赛。绝大多数参与过竞赛的本科生一般也是参与这一类型的比赛,即通过几天几夜的时间,完成一个项目,然后提交进行评审。这类比赛对于学生的基础有一定的要求,但是没有学科理论型竞赛要求那么苛刻。这项比赛由于存在团队合作,以及开放性比赛,因此也考察了学生软实力的水平。比如,文献查找、团队沟通、学术写作等能力,这与大学生甚至未来做科研都有一定的联系。所以,这类型比赛如果取得成绩不错,会得到老师的青睐。同时也可以注意到,相当多的加分甚至和保研挂钩的比赛也和这类比赛相关,数学建模比赛由于出题的普及型几乎快成了本科生必参加的一类比赛了。准备这类比赛,通常也是周期性准备,一般是大一准备,大二上第一次比赛,大三上出一个比较好的成绩。由于考察的知识比较冗杂,因此对于知识的深度可能不如第一类比赛要求那么好,掌握好课内的东西,融会贯通,适当学一些新东西就问题不大了。最重要的是,组一个靠谱的队伍。好的队伍,基本上就是最终成功的一半。这类比赛的评价存在一定的主观性,由于这类比赛的作品通常十分具有借鉴意义,所以该项赛事的传统强校一般也会一直强下去。而且,由于对基本功要求并不是特别高,因此只要学校愿意重视愿意投入这项赛事中去,起色会非常快。比如桂林电子科技大学在电子设计大赛上,可以算得上TOP10甚至TOP5的高校,这就是传承和重视的力量。这类比赛主要为工科类比赛,因此获奖名单非常具有院校学科特点,电子设计大赛一般就是电类院校牛逼,结构设计大赛一般是土木强校厉害,光电类竞赛也是光学工程牛校更有可能独占鳌头。总之,对于本科基础一般,但是想好好学习专业的同学,这类比赛是最适合不过的比赛,不仅可以掌握一定的理论知识也可以拥有一定的工程能力。代表比赛:全国大学生数学建模竞赛、美国大学生数学建模竞赛、全国大学生电子设计竞赛、全国大学生机械创新设计大赛、全国大学生结构设计竞赛等。一些企业级的比赛,如阿里巴巴天池大数据平台、Kaggle平台也是极好的。第三类(2.5类+3类):创新创业及实践类(可能不能算做狭义的学科竞赛,但是由于存在很大的影响力姑且放这里吧)如果说从微观到宏观,那么理论、应用、实践则是不断地把一个知识点综合起来,最终走向社会,造福人类。这类比赛的特点通常是周期十分长,短则几个月,长则一年甚至两年的准备周期。比如大挑和小挑,基本上都是隔一年参赛,但是想要获得很好的成绩,基本上需要尽早准备,并且需要花费大量的心血去做一些有实际意义的作品出来,这一点是与第二类比赛截然不同的地方。这类比赛应该来说是最为锻炼一个人的综合实力了,大挑的最终作品,可以认为基本上是一个课题组对这一两年做的相关学术成果的一次展示,比如论文、比如专利、比如产品应用到社会中与相关部门的备忘录。从0到1再到无穷大,每一步的心血只有自己才知道。类似节能减排等申报类的比赛,也基本上必须拿出比较硬的成果出来,才能在所有申报作品当中脱颖而出,而准备作品也不是和电子设计比赛一样,有好的命题可以马上去做,而应该去思考社会上的痛点问题,深入解决。创业类大赛,分为不同的赛道,有些是创意类,可以天马心空但是也需要脚踏实地。有一些是初创类,更加看重核心竞争力的潜力。而已经运营一些时间的企业,则更加看重生存能力和技术转化能力。这类比赛最大的缺点就是,投入其中,可能会花费较多的时间,对于学业本身来说会受到一定的影响,因此对于深造的同学,还是更多地喜欢参与第二类比赛。所以反过来说,对于已经读研的学生,不妨考虑第三类比赛,这类比赛更加注重自己转化能力,学了这么多东西,也应该真正拿出来用一用了。总而言之,这类比赛还可以细分两类。第一个我称为2.5类吧,类似节能减排这样的申报赛,也就是申报一个大作品去进行评选。而大挑+小挑+互联网+比的则是一个系统,这不是某个作品就会起到决定性的作用。可能你们的作品、可能你们的人气、可能你们答辩的风采、甚至可能是你们演讲的PPT都会影响到最终的结局,不管怎么说,享受比赛吧。这类比赛虽然存在“黑幕”、“作秀”这样的弊病,但是总的来说,应该是代表大学和社会交汇的一个很好的接口吧。代表比赛:“挑战杯”全国大学生课外学术科技作品竞赛(大挑)、“挑战杯”中国大学生创业计划大赛(小挑、创青春)、中国“互联网+”创新创业大赛、全国大学生节能减排社会实践与科技竞赛等。一些地方政府或者一些投资公司承办的创新创业大赛也值得大家参与,不过难度或许就有着更高的要求了。
最近挤出时间,用python在kaggle上试了几个project,有点体会,记录下。
EDA,也就是对数据进行探索性的分析,一般就用到pandas和matplotlib就够了。EDA一般包括:
在这步完成之后,要对以下几点有大致了解
数据预处理,就是将数据处理下,为模型输入做准备,其中包括:
理论上来说,特征工程应该也归属于上一步,但是它太重要了,所以将它单独拿出来。kaggle社区对特征工程的重要性已经达成了共识,可以说最后结果的好坏,大部分就是由 特征工程 决定的,剩下部分应该是 调参 和 Ensemble 决定。特征工程的好坏主要是由 domain knowledge 决定的,但是大部分人可能并不具备这种知识,那么只能尽可能多的根据原来feature生成新的feature,然后让模型选择其中重要的feature。这里就又涉及到 feature selection , 有很多方法,比如backward,forward selection等等。我个人倾向于用 random forest的feature importance , 这里 有论文介绍了这种方法。
Model Ensemble有 Bagging , Boosting , Stacking ,其中Bagging和Boosting都算是 Bootstraping 的应用。 Bootstraping 的概念是对样本每次有放回的抽样,抽样K个,一共抽N次。
最后是我的两点心得吧
这篇文章是参加kaggle之后的第一次总结,描述了下kaggle的步骤,通用的知识点和技巧。希望在未来一个月中,能把xgboost和stacking研究应用下,然后再来update。希望大家有什么想法都能跟我交流下~~
update: 更新了关于类别特征的处理方式以及Boosting和Bagging的看法,还有stacking的内容。
在大学里辩论赛是应该参加的。辩论赛对一个人综合能够力有很大的锻炼,比如思维能力、临场应变能力、语言组织能力。
我在大一的时候就参加过系里的辩论赛,全系九个班我们班获得了第二名。针对每场比赛的辩论话题,我们提前也是做了不少准备。通过上网或者去图书馆查找资料,这也让我们积累了很多知识。
辩论的过程中,一辩、四辩还是比较好把握的,一个提出观点、一个总结观点。我是作为三辩选手参赛的,三辩的作用是既需要阐述清楚己方观点,又需要击倒对方辩友的观点。这就需要有快速的思考能力、语言组织能力以及现场应变能力。
整场辩论下来,感觉整个人都是虚脱的。不过收获也是很大,还是很值得参加的。而且后来我还发现在公众场合无论是发言还是答辩,都能够应对自如。
在大学里知识技能大赛是应该参加的。知识技能大赛可以考验一个人综合知识的掌握程度,可以让自己查缺补漏,认识到自己的优势和不足。
好多知识技能大赛都是由一些单位和大学合办的,参加这种类型的比赛既是对自己的一种磨练还能够增长见识 。有的比赛会有证书和奖金的,这也是其中吸引人的地方。
三月份在北京大学举办的第三届全国大学生环保知识竞赛,有191万大学生报名参加。通过多轮选拔,评出特等奖402人,一等奖1162人,二等奖2236人,三等奖4549人。每个获奖人员都会有各自的学校颁发证书,这是一项很大的荣誉。
大学生参加这种知识竞赛就非常的有意义,既对环保知识有了全面的学习,又增强了爱护环境的意识。
能。论文里的公开数据集能不写出来,但是必须引用提出数据集的论文,如果没有发论文,如在kaggle上在线发布的数据集,也要以网络资源的形式进行引用。
通过代码进行。首先导入需要的模块与读路径找到需要的数据训练集与测试集。代码中显示一下前五个数据,大致浏览了解一下具体影响房价的因素,可以看到有多少个因素影响房价,ID+Priceisincluded,实际上79个,然后在操作前了解一下数据的size。
kaggle比赛含金量在业界是很高的。有兴趣的可以试着参加一下,提升自己能力的同时又可以开拓视野,不断向许多强者学习。
所以不论你是求职者还是学生,如果对数据科学感兴趣,都可以利用Kaggle来锻炼自己的技能,提升自己的背景。简历中如果有这样一份为“准东家”定制的Kaggle项目经历,定能提升梦校、大厂Offer的命中率。
所以不论你是求职者还是学生,如果对数据科学感兴趣,都可以利用Kaggle来锻炼自己的技能,提升自己的背景。简历中如果有这样一份为“准东家”定制的Kaggle项目经历,定能提升梦校、大厂Offer的命中率。
1、想要发表论文,事先要做的就是写好一篇查重率合格,且具备一定价值的论文,论文查重率的具体要求,要根据想要发表的期刊来定,若为普通期刊,则查重率在20%或是30%左右即可,若是核心期刊,则查重率一般要在10%以内。
2、在期刊上发表论文,主要途径就是投稿,最好是通过一些比较熟悉和了解的渠道进行投稿,因为这样通过的概率会更高一些,审批也会比较快,发表的时间也能够往前安排。
3、如果是缺乏有关渠道的,可以向有经验的同学或是学长学姐咨询,也可以向有关的老师询问,一般也能够得到一些可靠的方式方法。
4、对于社内投稿,即在官网投稿系统或邮箱投稿,或者是在知网投稿系统投稿,它对于所有类型的期刊都是合适的,缺乏有关渠道的,也可以通过这种方式进行投稿。
5、还有一类投稿,是社内会公布联系方式,或是在线系统投稿,但是这一类投稿的要求会比较高,对于缺乏经验的投稿人来说,也有可能遇到假冒或是的,因此选择这类投稿方式的,建议事先进行必要的验证,确定无误后在进行投稿。
6、可供大家选择的投稿、发表论文的方式其实有不少,但大家也要对各类方式、途径进行甄别对比,还有非常重要的一点是:不得一稿多投。
以下是发表论文或期刊的方法:
一、写作
首先要写好一篇论文,选题要与专业、研究方向密切相关,论文的格式要规范,应包括题目、作者(姓名、单位、邮编及简介)内容摘要、关键词、正文等;论文篇幅不宜过长,因为期刊版面的字符数是固定的,字符数越多,版面增加,相应的费用就会越高;最后还要注意控制重复率,一般期刊要5%-20%以下才合格录用。
二、选刊
选择一本合适的期刊进行投稿,是成功发表论文极其关键的一步,要遵循几个原则,即
1、 国家新闻出版署能查到的正规期刊;
2、知网、万方、维普、龙源四大数据库之一正常收录的期刊;
3、符合学校、单位要求的期刊;
最后还要考虑论文是否符合期刊的收稿范围,避免因为文章方向不合适出现拒稿的情况。
三、投稿
投稿的途径有两种,一种是通过杂志社邮箱,官网或者在线系统投稿。(注意:数据库和期刊的目录页上面的联系方式才是准确的),虽然这种方式完全不用担心,但缺点是审稿时间较长,沟通不及时,无法了解期刊最新出刊时间,费用,收稿要求等等。
第二种就是找代理投稿 。这个方法也是现在大多数人用的要给方法,为什么会这样的,我只能说谁用谁知道。这个是最简单最省事儿的。以前我就是找的一个文化公司安排文章,服务没得说,只需要提供文章,剩余的事情全由他们搞定。
中介投稿也是有很多优势的
1、刊物比较丰富和全面,各类的刊物都有,可以根据作者的要求快速推荐推荐合适的刊物。
2、 期刊信息非常的全名,从刊物的收稿栏目,出刊时间,版面字符数要求,期刊级别、出刊周期、审核标准、是否可以开社内发票、刊号邮发代号、电子刊号、是否可以查稿、封面以及影响因子区间
3、他们基本上是和杂志社或是承包商直接对接的,沟通速度比较的迅速。
4、查稿后付款。这点已经算是标配了,绝大多数的刊物都是可以查稿后付款的,而且查稿电话是数据库可以查询到的哦 。
5、 最要是不收定金和知道一个刊物的审稿要求和难度。