Skip to content

midas-gufei/udacity-mlnd-data-analysis

Repository files navigation

Udacity Machine Learning Nanodegree

项目概述

在本项目中,你将分析一个数据集,然后传达你的发现。你将使用 Python 库 NumPy、Pandas 和 Matplotlib 来使你的分析工作更加轻松。

我需要安装什么?

你需要安装 Python 和以下库:

pandas numpy matplotlib csv 我们建议安装 Anaconda,它自带所有必要的包和 IPython 笔记本。你可以在此处找到安装说明。

为何要进行此项目?

此项目将向你介绍数据分析过程,以及所有工作的相互配合。后期的纳米学位将重点关注数据分析过程的各个环节。

你将使用 Python 库 NumPy、Pandas 和 Matplotlib,这些库使你能够更加轻松地在 Python 中编写数据分析代码!不仅如此,它们也是雇主们青睐的技能!

我将学到什么?

完成此项目后,你将:

了解典型数据分析过程中所涉及到的所有步骤 轻松提出可用给定数据集回答的问题,并解答这些问题。

了解如何调查数据集中的问题,以及将数据整理成你可以使用的格式 练习传达你的分析结果 能够在 NumPy 和 Pandas 中使用向量化运算,以加快数据分析代码的运行速度 熟悉 Pandas 的 Series 和 DataFrame 对象,它们能使你访问数据更方便 了解如何使用 Matplotlib 生成图形,展示你的发现

介绍

对于这个项目,你需要进行数据分析,并创建一个文档分享你的发现。你可以首先了解数据集,想想它可以用来回答哪些问题。然后,你应该使用 Pandas 和 NumPy 回答你感兴趣的问题,并编写一份报告,分享你的结论。你不需要使用统计学或机器学习知识来完成此项目,但是你需要在报告中声明,你的结论是暂时的,可能需要进一步改进。这个项目是开放性的,没有标准答案。

第一步 - 选择数据集

从下面的数据集中任选一个,在此项目中进行分析:

泰坦尼克号数据:包括泰坦尼克号上 2224 名乘客和船员中 891 名的人口学数据和乘客基本信息。你可以右键点击 该链接 选择“另存为”下载。你也可以在 Kaggle 网站上查看这个数据集的详细描述。这个数据集就是来自 Kaggle。 棒球赛数据:这个数据集包括从 1871 年到 2014年完整的棒球赛击球和投球数据,还包括防守数据、排名、球队数据、管理记录、季后赛数据等等。这个数据集含有很多文件,你可以任选一个你最感兴趣的展开分析。选择“逗号分开”的文件版本(comma-delimited version),其中有 CSV 格式文档。

第二步 - 做好准备

最终,你需要提交一份报告(并与你的朋友、家人或同事分享)。在正式开始之前,让我们为此做好准备。我们建议你新建一个文件夹,包括:

报告文档,用来传达你的发现 你用来分析数据的任何 Python 代码 你分析的数据集(当然,提交的时候你不需要包括它) 你可以使用 IPython Notebook,这样,你可以在同一份文件里编写报告和提交代码。不然你可能只能分别提交报告和代码了。

第三步 - 分析数据

思考你可以用数据集回答哪些问题,然后开始着手调查。下面是一些示例:

泰坦尼克号数据 有哪些因素会让船上的人生还率更高? 棒球赛数据 不同表现指标之间有何关系?有哪些指标之间程有明显的正相关或负相关? 薪酬最高的棒球球员有何特点? 试着提出那些调查多个变量之间的关系的问题。你应该在你的调查里分析至少一个因变量和三个自变量。在恰当的地方使用 NumPy 和 Pandas。

第四步 - 分享发现

分析完数据以后,编写一份报告,分享你觉得最有意思的发现。我们建议你使用 IPython Notebook,这样你可以在同一份文件里包括你的报告和代码。当然你也可以使用其他你习惯的工具。

第五步 - 检查

使用这个项目评估准则来检查你的项目。如果你已达到所有要求,可以继续提交你的项目。如果你发现还有改进的空间,不要迟疑,这就去做吧。

项目提交

选择优达学城准备的一个数据集,并通过 NumPy 和 Pandas 进行调查。体验从提出问题到分享发现成果的整个数据分析过程。

评估

阅读项目评审标准,根据要求审阅你的项目。如果你对你的项目感到满意,则表明你已准备好提交!如果存在任何不符合规则的情况,说明还有进行改进的空间,请继续努力!优达学城项目导师会根据相同的项目评估准则对你的项目进行评估。你的项目必须在各个类别中均“满足要求”或“超出要求”,你的提交才能够通过。

提交

包括哪些内容 包含你的分析的 PDF 或 HTML 文件。该文件应该包含: 指定你所分析数据集的注解 对你所提出问题的陈述 你针对这些问题进行的调查的描述 你进行的所有数据处理的记录 传达最终结果的摘要统计量和图形 你执行分析操作使用的代码(iPython Notebook) 你在完成项目的过程中参考或使用的网站、书籍、论坛、博客帖子、GitHub 代码库等的列表(如果你未使用上述任何资源,则请添加“无”)。 提醒: 如果你选择上传文档,在上传之前,我们建议将 zip 文件以及其内部文件的文件名改为 英文 ,以尽可能避免上传过程中的问题发生。

IPython Notebook 说明

你可以方便地将 Notebook 文件导出成 HTML,只需在 Notebook 中点击 “文件 -> 下载为 -> HTML (.html)”。

准备好提交项目了吗?

点击下方的“提交项目”按钮提交。我们最多需要一周的时间来对你的项目进行评分,但是多数情况下无需一周。在项目接受评审后,你会收到电子邮件。如果你在提交项目时遇到问题,或者想查看提交状态,请发送电子邮件至 [email protected]

About

Udacity机器学习入门 探索数据集

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published