挑战题目

你需要完成一个小的挑战题目以便我们更好地了解你的问题解决和编码能力。从下面选择一个问题,使用jupyter notebook完成你的分析然后将结果上传到Github上并通过下面的提交按钮提交你的结果。

一些关于挑战的小技巧:

  • 考虑一下为什么选择了以下问题作为挑战题目?在这些领域中那些关键问题是你应该了解的?
  • 别人对这些数据集或类似问题的数据集的最高准确度是多少?
  • 什么类型的可视化图表可以帮助我掌握问题或数据的本质?
  • 什么特征工程有助于帮助改善信号?
  • 哪些建模技术擅长捕获我在这些数据中看到的关系类型?
  • 假如我现在有一个模型,怎么能确定我没有在代码中引入一个错误?-- 如果你的结果太好了的话,可能在你的代码里就有问题了!
  • 模型的弱点是什么以及如何通过额外的工作改进模型?
 

选择你的挑战题目

 

迁移学习

使用一个深度学习预训练模型 预测 STL-10 数据集


图像分割

 

将 celebrity face 数据集应用于自动人像分割模型(又名抠图)


语言识别

 

European Parliament Proceedings Parallel Corpus

欧洲议会诉讼平行语料库是用于评估语言检测引擎的文本数据集。 1.5GB语料库包括在欧盟使用的21种语言

创建一个在此数据集上训练的机器学习模型,以预测以下 测试集


全球恐怖袭击

全球恐怖主义数据库(GTD)是一个开源数据库,包括从1970年至2014年世界各地的恐怖事件的信息。部分袭击事件并不归咎于特定的恐怖组织。

通过攻击类型,使用的武器,攻击的描述等信息,构建一个可以预测什么组织可能对事件负责的模型。


推荐系统

构建一个基于 Lab41 dataset 中提及数据集的基本推荐系统。