大数据竞赛是由百度和西安交通大学联合主办,旨在通过全国高校范围内,挖掘、发现大数据尖端人才,并为其提供更好的发展环境和实践机会。第一届百度西安交通大学大数据竞赛于2015年5月正式启动,历时四个月,吸引了全国高校近900支团队参加。第一届竞赛题目是基于百度的“知识图谱”技术展开,以挖掘明星(人物)关系为场景,进而构建知识挖掘系统。
今年,竞赛题将围绕用户消费决策影响因素展开,从评价性文本片段中,结合上下文,提取核心内容,为用户判断提供有力依据。本届竞赛要求参赛者给出一个算法或模型,从评价性文本片段中,结合上下文提取子句中的核心实体,即识别出该子句所讨论的最重要的实体。
一、任务设定
本次竞赛要求参赛者给出一个算法或模型,从评价性文本片段数据集中,结合上下文提取文本片段中的核心实体,即识别文本片段所讨论最重要的实体。竞赛数据由若干文本片段组成,每个文本片段单独占一行,可能包含多个子句,每个子句以半角句号结尾,要求参赛选手识别出每个文本片段子句及其核心实体。
输入输出说明:
输入:逐行读取文本片段;
输出:逐行输出该文本片段的子句以及提取到的核心实体,以json形式分装,格式如下:
[
{
"content": "子句1",
"core_entity": [
"entity1",
"entity2"
]
},
{
"content": "子句2",
"core_entity": [
"entity1",
"entity2"
]
}
]
样例数据:
文本片段:
不得不说锤子手机在很多功能操作上的优化真的很用心,尤其是一些看上去并没有什么卵用但让人感觉确实舒服的小设计。如果说苹果的设计是强行的改变用户习惯,我宁愿选择这个能够随时迁就用户个性的锤子。
答案:
[
{
"content": "不得不说锤子手机在很多功能操作上的优化真的很用心,尤其是一些 看上去并没有什么卵用但让人感觉确实舒服的小设计。",
"core_entity": [
"锤子手机"
]
},
{
"content": "如果说苹果的设计是强行的改变用户习惯,我宁愿选择这个能够随时 迁就用户个性的锤子。",
"core_entity": [
"苹果",
"锤子"
]
}
]
二、评分标准
正确识别文本片段中至少一个核心实体得1分,如文本片段包含多个核心实体,每多正确识别一个加0.5分,识别错误反扣0.5直到该子句得分为0为止,实体名称以该实体首次出现在文本片段中的名称为准。
三、竞赛阶段
Ø 训练阶段(4-8月):
参赛者获得训练数据,开始训练模型;
发布1.2万条语料片段的训练数据集;
Ø 测试阶段(8-9月):
参赛者获得测试数据,得到模型运行结果后,在线提交,实时刷新测试成绩;
发布20万条语料测试数据集;
Ø 验证阶段(9月):
排行榜前10名队伍上传源代码及说明文档,竞赛评委组使用官方验证数据集进行测试,最终给出排名;
发布20万条语料验证数据集;
注:
1、参赛者可以任意使用其他公开的外部数据源或者词典作为辅助数据,但提交时需要说明清楚使用方式并将使用到的外部数据一并提交,同 时禁止人工标注数据用于系统优化,如有发现成绩归零。
2、说明文档至少包含编译环境说明,算法、代码等说明。
3、报名截止日期:8月10日。
训练数据
数据集包含1.2万个文本片段,每个文本片段后给出Json格式的子句及其核心实体;
下载链接(百度网盘分享):http://pan.baidu.com/s/1pLtfjSZ
密码:jzy9
该数据为竞赛专用,严禁用于商业用途!
参赛对象
全日制在校学生均可报名参加,参赛队伍可以是单人组队,或者自由组合,但是最多不超过三人;4月9日早8点开放报名!
注:
1、每人只能参加一支队伍;
2、保证参赛队员报名信息准确有效,否则会被取消参赛资格及激励;
3、报名方式:用百度账号登入官网、填写完个人信息,可报名参赛。
4、百度西交大大数据竞赛官方交流群,QQ群:482699741
奖项分为两类:普通奖项和特别贡献奖,各奖项均以团队进行评比;获奖团队成员优先推荐进入百度实习或工作。
注:一个团队不可同时获得两类奖项
普通奖项
一等奖 2万元人民币
二等奖 1万元人民币
三等奖 5千元人民币
特别贡献奖
10万元人民币(1名)
免责声明:本文来源于网络,欧米网仅转载以供参考。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
本文由 欧米网 整理编辑,版权归原作者所有,转载请注明来源!