• 回答数

    3

  • 浏览数

    167

飞花叶叶雪
首页 > 期刊论文 > 美团网论文开题报告

3个回答 默认排序
  • 默认排序
  • 按时间排序

ronghuiguantong

已采纳

"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 "大数据"首先是指数据体量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢?大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。大数据分析广泛应用于网络数据挖掘,可从用户的搜索关键词、标签关键词、或其他输入语义,分析,判断用户需求,从而实现更好的用户体验和广告匹配。大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。 大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。当下我国大数据研发建设应在以下四个方面着力一是建立一套运行机制。大数据建设是一项有序的、动态的、可持续发展的系统工程,必须建立良好的运行机制,以促进建设过程中各个环节的正规有序,实现统合,搞好顶层设计。二是规范一套建设标准。没有标准就没有系统。应建立面向不同主题、覆盖各个领域、不断动态更新的大数据建设标准,为实现各级各类信息系统的网络互连、信息互通、资源共享奠定基础。三是搭建一个共享平台。数据只有不断流动和充分共享,才有生命力。应在各专用数据库建设的基础上,通过数据集成,实现各级各类指挥信息系统的数据交换和数据共享。四是培养一支专业队伍。大数据建设的每个环节都需要依靠专业人员完成,因此,必须培养和造就一支懂指挥、懂技术、懂管理的大数据建设专业队伍。

298 评论

可可京99

首先介绍大数据带来的好处,然后介绍大数据带来的弊端。

大数据带来的好处

1、大数据便利我们的生活:

自助缴水、电、燃气、电视费,汽车摇号、手机充值、违章查询、公积金查询、手机代开发票、查询法院案子进展,这是运用大数据促进保证和改善民生的典型事例。此外,大数据还运用到智能家居中,智能照明体系等。

2、大数据便利看病:

大数据最强大的应用就是电子医疗记录的收集。每一个病人都有自己的电子记录,包括个人病史、家族病史、过敏症以及所有医疗检测结果等。大数据收集病人信息,可以尽早发现疾病,对于患者来说,不但降低了身体健康受损的风险,同时也能够减少医疗支出。

另一个创新是可穿戴设备的应用,这些设备能够实时汇报病人的健康状况。这些新的分析设备具备同样的功能,但能在医疗机构之外的场所使用,降低了医疗成本,病人在家就能获知自己的健康状况,同时还获得智能设备所提供的治疗建议。

3、大数据便利我出行:

人们的出行越来越离不开大数据的协助,运用电子地图,初来乍到的游客可以在生疏的城市自由行走;繁忙一天的上班族可以查询最快回家的交通方法;出租车司机经过语音导航,知晓前方路程状况,防止堵车或超速违章。

大数据仍是缓解交通压力的利器,它可以猜测未来交通状况,为改善交通状况供给优化方案,这有助于交通部门进步对路程交通的把控才干,防止缓和解交通拥堵。

4、利用大数据提升自己:

大数据技能不只能够提高人们使用数据的效率,并且能够实现数据的再使用和重复使用,进而大大降低交易成本,提升人们开发自我潜能的空间。

大数据的弊端

1、个人数据隐私与安全

大数据会记录浏览习惯,购买习惯,常用淘宝支付宝这些软件的人,消费能力、购物习惯、活动产所、收入情况、生活质量、年龄、身高、体重、鞋码、三围、口味等,都是可以分析出来的,这些基本囊括了我们的生活。

个人数据安全就成了一个大问题,一旦数据泄露(或被买卖),可能会对用户人身财产、国家和公司的安全造成威胁。

2、大数据杀熟

杀熟,即同样的商品或服务,老客户看到的价格反而比新客户要贵出许多。

包括滴滴出行、携程、飞猪、京东、美团、淘票票等多家互联网平台均被曝疑似存在“杀熟”情况,涵盖在线差旅、在线票务、网络购物、交通出行等多个领域,特别是OTA(Online Travel Agent)在线差旅平台较为突出。

大数据的价值体现

1、对许多顾客供给产品或服务的企业可以运用大数据进行精准营销。

2、做小而美形式的中小微企业可以运用大数据做服务转型。

3、面对互联网压力之下,有必要转型的传统企业需求与时俱进充沛运用大数据的价值。

在当前的“大数据”时代,人们可能会受到大数据带来的损失。大数据分析包括使用来自多个来源的大量数据进行链接和分析,以发现预测人类行为的模式。即使在完全合法的情况下,这样的分析也会伤害到人们的利益。

304 评论

素手宛花

论文: 题目:《Leveraging Historical Interaction Data for Improving Conversational Recommender System 》 地址: 这是我第一次将美团发表的论文写在这上面,该论文是人大跟美团这边合作在CIKM上面的一篇短论文,研究的是如何利用历史交互的数据来进行对话式的推荐。 最近,对话推荐系统(CRS)已成为一个新兴且实用的研究主题。 现有的大多数CRS方法都专注于仅从对话数据中为用户学习有效的偏好表示。 然而,本论文从新的视角来利用历史交互数据来改善CRS。 为此,这篇论文提出了一种新颖的预训练方法,以通过预训练方法集成基于物品的偏好序列(来自历史交互数据)和基于属性的偏好序列(来自对话数据)。 随着电子商务平台中智能代理的快速发展,对话推荐系统(CRS)已成为寻求通过对话向用户提供高质量推荐的新兴研究主题。 通常,CRS由对话模块和推荐模块组成。 对话模块侧重于通过多回合互动获取用户的偏好,推荐模块侧重于如何利用推断出的偏好信息为用户推荐合适的商品。 现有的大多数CRS都以“系统要求用户响应”模式设计的。在每轮对话中,CRS都会发出有关用户偏爱的问题,并且用户会使用个性化反馈对系统进行回复。通常,系统会根据商品的某些属性(例如,你最喜欢的电影类型是什么)来生成系统查询,并且用户反馈会反映用户对该属性的特定偏爱(例如,我喜欢动作电影)。主流方法是构造一种跟踪模块,该模块可以从这种多轮对话中推断出用户的基于属性的偏好。以此方式,可以将所推断的偏好呈现为所推断属性的序列(例如,电影CRS中的“流派=动作→导演=詹姆斯·卡梅隆”。有了这个序列后,我们就可以用一些方法来进行推荐来,比如可以采用知识图谱来进行推荐。 但是,这些现有的CRS研究存在两个主要问题。首先,对话本身的信息非常有限。许多CRS得到了进一步优化,以减少系统与用户交互的回合数。因此,在基于属性的推断偏好中,可能会丢失一些有用的属性。其次,仅利用基于属性的偏好来进行推荐可能还不够。例如,即使在过滤了几个属性之后,候选项目集仍可能很大。 现在要解决以上提到的两个问题,我们就需要把基于item的方式和基于属性的方式进行结合。其中,基于历史交互item的方式反映的是用户的长期兴趣,基于会话属性的方式反映的是用户当前的兴趣,也就是短期兴趣,这是一个典型的长短期兴趣结合的任务。 A:之前说了,在CRS系统中,一个用户进行多轮对话后,会有一个item属性的集合,A就是这个集合 =  ,其中 属于A,是item的属性,n是属性序列的长度 ,其中 是用户在对话前第k步与之交互的item :我们进一步假设每个项目ik也与一组属性值相关联,用Aik表示,它是整个属性集A的子集。 任务的定义:根据CRS模块,首先收集到基于属性的序列 ,然后利用点击序列 进行推荐。关于这个任务的定义,深入理解应该是这样:我们是先有属性序列,然后主要根据点击序列进行推荐,属性序列的建模是子模块任务,序列推荐是主任务,序列推荐任务在属性序列更新后可以反复利用这个信息,只要属性序列更新。 论文的base model是用Transformer做的,输入部分是embedding层,这部分除了有item id的embedding矩阵,还有属性的embedding矩阵,输入还有个P,这个就不说了,位置向量。 中间的运算就是Transformer的过程了,self-attention 跟ffn,这里不懂transformer结构的可以看一下论文。 输出部分是预测候选item i的概率:其中ei是i的原始embedding向量,W是映射矩阵,两个s是item和属性经过transformer结构出来的最后一个向量。 熟悉bert的都知道mask language model,把item序列中的item 用mask替代,然后预测这些被mask掉的item。 其中fik是item transformer结构出来的位置k出来的向量,SA是熟悉结构出来的Aik的位置出来的向量,W是映射矩阵,eik是原始的item embedding。 为了更好的让item based的信息跟attribute based的信息进行融合,论文也采取了一种另类的mask方法,用随机负采样的属性来替代Aik, 其中fik是被替换的那个item经过trm出来的向量,W是映射矩阵,faj是属性trm出来的向量,预测的概率是aj是否是被替换过。 在LTR里面,如果采用的是pairwise的优化方式,那么负采样的技术就至为关键了,而且优化了正样本的概率大于负样本的能力,所以需要选取一种负采样的方法来给我们整个模型的优化带来提升。 MIP里面负采样的方式用的是 IR-GAN 和 ELECT这两篇论文所采用的方式。 改论文选择了SASRec作为第一个阶段的pairwise ranking的模型,这个模型也是论文中用来sample 负样本的模型。负采样是这么做的:我们先用pairwise ranking的方式训练一个模型作为生成器,得到了候选item的概率分布,有了这个概率分布我们就可以拿来负采样了,因为排序高的items跟真实的很接近。至于为什么选择这个模型,论文里面说是因为这个论文在序列推荐任务中的表示特别好,也就是它作为ranking的模型效果还不错。请注意,尽管可以像标准GAN中那样更新生成器,但是我们只训练它的参数一次。 根据经验,我们发现迭代更新带来的改进是有限的。 整个训练分成两个阶段,第一个是预训练阶段,就是训练两个表示学习模型,第二个是微调阶段,学习的是rank loss:

313 评论

相关问答

  • 毕业论文社团管理网站开题报告

    朋友,你是神马专业的啊?以下方法你看看吧!更多详见教育界杂志社官网 ,论文发表 投稿 帮你写写Q:40098 18108 开题报告的基本内容及其顺序:论文的

    护手霜adb 3人参与回答 2023-12-09
  • 美术学论文开题报告

    一、选题依据及研究意义 选题的依据是: 以眼疾和手法展现想要的空间为依据。以线的粗细、长短、曲折、虚实和头脑的创意想法来表现为依据。以唯美、创新、实用、科学的设

    糖小婉爱吃肉 3人参与回答 2023-12-06
  • 集团化办学论文开题报告

    毕业论文开题报告论文题目:学生姓名:学号:专业:指导教师:年月日开题报告填写要求1.开题报告作为毕业设计(论文)答辩委员会对学生答辩资格审查的依据材料之一.此报

    huzhanghua88 4人参与回答 2023-12-08
  • 古井集团论文开题报告

    食品安全 古语云:民以食为天。一日三餐各种食品充盈于饭桌之上,它们给人们带来丰富的营养,强健了人们的体魄;人食五谷,难免生有各种疾病,对症的良药改善了疾病对

    胖纸没烦恼 6人参与回答 2023-12-09
  • 美食论文开题报告

    研究性学习课题开题报告课题题目 班级 组长 课题组成员 指导老师 简要背景说明: 课题目的与意

    donkeybenben 3人参与回答 2023-12-09