从零开始,如何学习数据>发掘/h2>
先学习数据挖掘的相关算法,在此期间你可能会遇到各种统计学的问题,可以咨询百度。可以参考数据挖掘算法写的不错的一本书《数据挖掘导论》,每个算法都有对应的小数据集示例,比较具体,非常好理解。每刷完一个算法就对照一个用于数据挖掘的软件进行练习。
1、数学基础,线代、概率论等基础知识非常重要。
2、数据挖掘导论得老老实实过一遍。

3、啃掉python基础语法,熟悉python科学计算包的语法及用法,pandas、numpy、matplotlib、sklearn等等;
4、在kaggle上找项目,结合上述3,熟悉清晰数据、加工数据的流程,特征工程在机器学习中最重要...数据处理的好,模型效果一般不会差。跑跑sklearn中模型,了解每个模型参数的含义。
5、利用numpy等包,自己实现一些经典的算法模型。
大数据思维的主要方式
主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。
分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。
回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。
数据挖掘的方法有哪些
数据挖掘的方法:
1.分类 (Classification)
2.估计(Estimation)
3.预测(Prediction)
4.相关性分组或关联规则(Affinity grouping or association rules)
6.复杂数据类型挖掘(Text,Web ,图形图像,视频,音频等)数据挖掘数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Association rule learning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
大数据会常用到哪些算法知识
大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。
常见算法场景:分类、回归分析、聚类、关联规则、神经网络方法、Web数据挖掘、深度学习 、集成算法等。
一个简单的算法选择技巧:
首当其冲应该选择的就是逻辑回归,如果它的效果不怎么样,那么可以将它的结果作为基准来参考,在基础上与其他算法进行比较;
然后试试决策树(随机森林)看看是否可以大幅度提升你的模型性能。即便最后你并没有把它当做为最终模型,你也可以使用随机森林来移除噪声变量,做特征选择;
如果特征的数量和观测样本特别多,那么当资源和时间充足时(这个前提很重要),使用SVM不失为一种选择。
算法固然重要,但好的数据却要优于好的算法,设计优良特征是大有裨益的。假如你有一个超大数据集,那么无论你使用哪种算法可能对分类性能都没太大影响(此时就可以根据速度和易用性来进行抉择)。
回答来自科技行者团队成员——李祥敬