17 机器学习和人工智能
基本原理简介
机器学习主要有两种方式,一种是监督式学习(Supervised Learning),另一种是非监督式学习(Unsupervised Learning)
监督式学习(Supervised Learning)
需要提供一组学习样本,包括相关的特征数据和相应的标签。我们的程序可以通过这组样本来学习相关的规律或是模式,然后通过得到的规律或模式来判断没有被打过标签的数据是什么样的数据。
非监督式学习(Unsupervised Learning)
数据是没有被标注过的,所以相关的机器学习算法需要找到这些数据中的共性。因为大量的数据是没被被标识过的,所以这种学习方式可以让大量的未标识的数据能够更有价值。而且,非监督式学习,可以为我们找到人类很难发现的数据里的规律或模型,所以也有人称这种学习为“特征点学习”,其可以让我们自动地为数据进行分类,并找到分类的模型。
监督式学习是在被告诉过了正确的答案后的学习,而非监督式学习是在没有被告诉正确答案时的学习。
- Machine Learning is Fun! ,简单的入门资料
- Data Science Simplified Part 1: Principles and Process
- Data Science Simplified Part 2: Key Concepts of Statistical Learning
- Data Science Simplified Part 3: Hypothesis Testing
- Data Science Simplified Part 4: Simple Linear Regression Models
- Data Science Simplified Part 5: Multivariate Regression Models
- Data Science Simplified Part 6: Model Selection Methods
- Data Science Simplified Part 7: Log-Log Regression Models
- Data Science Simplified Part 8: Qualitative Variables in Regression Models
- Data Science Simplified Part 9: Interactions and Limitations of Regression Models
- Data Science Simplified Part 10: An Introduction to Classification Models
- Data Science Simplified Part 11: Logistic Regression
相关课程
数据分析相关
- UC Berkeley’s Data 8: The Foundations of Data Science 和电子书 Computational and Inferential Thinking 讲述数据科学方面非常关键的概念,在数据中找到数据的关联、预测和相关的推断
- Learn Data Science ,主要是一些数据挖掘的算法,比如线性回归、逻辑回归、随机森林、K-Means 聚类的数据分析
- donnemartin/data-science-ipython-notebooks,用 TensorFlow、scikit-learn、Pandas、NumPy、Spark 等把经典的例子做实现
- Data Science Resources List ,和数据科学相关的资源列表
在线机器学习的入门课程
- Coursera 上的免费机器学习课程
- Deep Learning Specialization 深度学习相关
- Deep Learning by Google ,Google 的一个关于深度学习的在线免费课程,教授如何训练和优化基本神经网络、卷积神经网络和长短期记忆网络。通过项目和任务接触完整的机器学习系统 TensorFlow
- 视频与课件 PDF,卡内基梅隆大学汤姆·米切尔(Tom Mitchell)的机器学习
- Learning from Data 课程视频及课件 PDF 适合进阶
- Neural networks class - Université de Sherbrooke,关于神经网络方面
- 斯坦福大学的《统计学学习》、《机器学习》、《卷积神经网络》、《深度学习之自然语言处理》等
- 麻省理工大学的《神经网络介绍 》、《机器学习》、《预测》等
- Awesome Machine Learning Courses
相关图书
- 《Pattern Recognition and Machine Learning》,机器学习领域的圣经之作
- 手册
- 《Understanding Machine Learning: From Theory to Algorithms》
- 《The Elements of Statistical Learning - Second Edition》
- 《Deep Learning: Adaptive Computation and Machine Learning series》 ,深度学习领域奠基性的经典教材
- 《Neural Networks and Deep Learning》,神经网络的入门书
- 《Introduction to Machine Learning with Python》,入门书,以 Scikit-Learn 框架来讲述的
- 《Hands-On Machine Learning with Scikit-Learn and TensorFlow 》 ,以 TensorFlow 为工具的入门书
相关文章
- Machine Learning Recipes with Josh Gordon ,从 Hello World 讲到如何使用 TensorFlow
- Practical Machine Learning Tutorial with Python Introduction 用 Python 带着你玩 Machine Learning 的教程
- Machine Learning - 101 ,讲述经典算法
- Marchine Learning for Humans
- Dr. Jason Brownlee 的博客
- Rules of Machine Learning: Best Practices for ML Engineering ,一些机器学习相关的最佳实践
- i am trask ,一个很不错的博客
- Neural Networks,关于 Deep Learning 中的神经网络的教程
- Deep Learning
- Natural Language Processing with Python, python做自然语言处理
- Machine Learning & Deep Learning Tutorials 教程列表
和神经网络相关的不错的文章
- The Unreasonable Effectiveness of Recurrent Neural Networks ,告诉你为什么要学 RNN,以及展示了最简单的 NLP 形式
- Neural Networks, Manifolds, and Topology ,帮助理解神经网络的一些概念
- Understanding LSTM Networks ,解释了什么是 LSTM 的内在工作原理
- Attention and Augmented Recurrent Neural Networks ,用图来说明了 RNN 的 attention 机制
- Recommending music on Spotify with deep learning ,分享的音乐聚类的文章
相关算法
监督式学习
- 决策树(Decision Tree),比如自动化放贷、风控。
- 朴素贝叶斯分类器(Naive Bayesian classifier),可以用于判断垃圾邮件、对新闻的类别进行分类,比如科技、政治、运动、判断文本表达的感情是积极的还是消极的、人脸识别等。
- 最小二乘法(Ordinary Least Squares Regression),是一种线性回归。
- 逻辑回归(Logisitic Regression),一种强大的统计学方法,可以用一个或多个变量来表示一个二项式结果。可以用于信用评分,计算营销活动的成功率,预测某个产品的收入。
- 支持向量机(Support Vector Machine,SVM),可以用于基于图像的性别检测、图像分类等。
- 集成方法(Ensemble methods),通过构建一组分类器,然后通过它们的预测结果进行加权投票来对新的数据点进行分类。原始的集成方法是贝叶斯平均,但最近的算法包括纠错输出编码、Bagging 和 Boosting。
无监督式的学习
-
聚类算法(Clustering Algorithms)。聚类算法有很多,目标是给数据分类。有 5 个比较著名的聚类算法你必需要知道:K-Means、Mean-Shift、DBSCAN、EM/GMM、和 Agglomerative Hierarchical。
-
主成分分析(Principal Component Analysis,PCA)。PCA 的一些应用包括压缩、简化数据便于学习、可视化等。
-
奇异值分解(Singular Value Decomposition,SVD)。实际上,PCA 是 SVD 的一个简单应用。在计算机视觉中,第一个人脸识别算法使用 PCA 和 SVD 来将面部表示为"特征面"的线性组合,进行降维,然后通过简单的方法将面部匹配到身份。虽然现代方法更复杂,但很多方面仍然依赖于类似的技术。
-
独立成分分析(Independent Component Analysis,ICA)。ICA 是一种统计技术,主要用于揭示随机变量、测量值或信号集中的隐藏因素。
-
List of Machine Learning Algorithms
-
A Tour of Machine Learning Algorithms ,概览一些机器学习算法
-
- Supervised learning
-
2.3 Clustering
-
2.5. Decomposing signals in components (matrix factorization problems)
-
- Model selection and evaluation
-
4.3. Preprocessing data
相关资源
- 8 Fun Machine Learning Projects for Beginners,为初学者准备了 8 个很有趣的项目,跟着练手
- 《Awesome Public Datasets》
- Awesome Deep Learning
- Awesome - Most Cited Deep Learning Papers
- Awesome Deep learning papers and other resources