科技赛事

2016第二届百度&西安交通大学大数据竞赛

百度&西交大第二届大数据竞赛

大数据竞赛是由百度和西安交通大学联合主办,旨在通过全国高校范围内,挖掘、发现大数据尖端人才,并为其提供更好的发展环境和实践机会。第一届百度西安交通大学大数据竞赛于2015年5月正式启动,历时四个月,吸引了全国高校近900支团队参加。第一届竞赛题目是基于百度的“知识图谱”技术展开,以挖掘明星(人物)关系为场景,进而构建知识挖掘系统。

今年,竞赛题将围绕用户消费决策影响因素展开,从评价性文本片段中,结合上下文,提取核心内容,为用户判断提供有力依据。本届竞赛要求参赛者给出一个算法或模型,从评价性文本片段中,结合上下文提取子句中的核心实体,即识别出该子句所讨论的最重要的实体。

一、任务设定

本次竞赛要求参赛者给出一个算法或模型,从评价性文本片段数据集中,结合上下文提取文本片段中的核心实体,即识别文本片段所讨论最重要的实体。竞赛数据由若干文本片段组成,每个文本片段单独占一行,可能包含多个子句,每个子句以半角句号结尾,要求参赛选手识别出每个文本片段子句及其核心实体。

输入输出说明:

输入:逐行读取文本片段;

输出:逐行输出该文本片段的子句以及提取到的核心实体,以json形式分装,格式如下:

[

{

"content": "子句1",

"core_entity": [

"entity1",

"entity2"

]

},

{

"content": "子句2",

"core_entity": [

"entity1",

"entity2"

]

}

]

样例数据:

文本片段:

不得不说锤子手机在很多功能操作上的优化真的很用心,尤其是一些看上去并没有什么卵用但让人感觉确实舒服的小设计。如果说苹果的设计是强行的改变用户习惯,我宁愿选择这个能够随时迁就用户个性的锤子。

答案:

[

{

"content": "不得不说锤子手机在很多功能操作上的优化真的很用心,尤其是一些 看上去并没有什么卵用但让人感觉确实舒服的小设计。",

"core_entity": [

"锤子手机"

]

},

{

"content": "如果说苹果的设计是强行的改变用户习惯,我宁愿选择这个能够随时 迁就用户个性的锤子。",

"core_entity": [

"苹果",

"锤子"

]

}

]

二、评分标准

正确识别文本片段中至少一个核心实体得1分,如文本片段包含多个核心实体,每多正确识别一个加0.5分,识别错误反扣0.5直到该子句得分为0为止,实体名称以该实体首次出现在文本片段中的名称为准。

三、竞赛阶段

Ø  训练阶段(4-8月):

参赛者获得训练数据,开始训练模型;

发布1.2万条语料片段的训练数据集;

Ø  测试阶段(8-9月):

参赛者获得测试数据,得到模型运行结果后,在线提交,实时刷新测试成绩;

发布20万条语料测试数据集;

Ø  验证阶段(9月):

排行榜前10名队伍上传源代码及说明文档,竞赛评委组使用官方验证数据集进行测试,最终给出排名;

发布20万条语料验证数据集;

注:

1、参赛者可以任意使用其他公开的外部数据源或者词典作为辅助数据,但提交时需要说明清楚使用方式并将使用到的外部数据一并提交,同 时禁止人工标注数据用于系统优化,如有发现成绩归零。

2、说明文档至少包含编译环境说明,算法、代码等说明。

3、报名截止日期:8月10日。

训练数据 

数据集包含1.2万个文本片段,每个文本片段后给出Json格式的子句及其核心实体;

下载链接(百度网盘分享):http://pan.baidu.com/s/1pLtfjSZ

密码:jzy9

该数据为竞赛专用,严禁用于商业用途!

参赛对象

全日制在校学生均可报名参加,参赛队伍可以是单人组队,或者自由组合,但是最多不超过三人;4月9日早8点开放报名!

注:

1、每人只能参加一支队伍;

2、保证参赛队员报名信息准确有效,否则会被取消参赛资格及激励;

3、报名方式:用百度账号登入官网、填写完个人信息,可报名参赛。

4、百度西交大大数据竞赛官方交流群,QQ群:482699741

奖项分为两类:普通奖项和特别贡献奖,各奖项均以团队进行评比;获奖团队成员优先推荐进入百度实习或工作。

注:一个团队不可同时获得两类奖项

普通奖项

一等奖  2万元人民币

二等奖  1万元人民币

三等奖  5千元人民币

特别贡献奖

10万元人民币(1名)

免责声明:本文来源于网络,欧米网仅转载以供参考。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

本文由 欧米网 整理编辑,版权归原作者所有,转载请注明来源!