博客 - 最新消息

Twitter准备利用机器学习技术过滤不相关内容!机器学习到底是什么?

Twitter今日表示,该公司正利用机器学习技术来过滤一些不相关的内容, 以便用户关注特定主题,并查看高质量的帖子。

Twitter 产品管理高级总监斯里拉姆·克里希南(Sriram Krishnan)今日在公司旧金山总部的一次活动上称:“这里的关键是,让用户关注某项兴趣和关注账户一样容易。”

Twitter 产品主管凯文·贝克普尔(Kayvon Beykpour)称,Twitter 的 Android App 的一些用户已经在测试这项新功能,并将在今年年底向所有用户发布。《The Economist》(《经济学人》)之前出过一期很经典的封面,封面里将全球各大高科技平台企业如谷歌、亚马逊等描绘成正在采油的钻井,寓意很明显,在数字经济时代,大平台正在开采数字化的石油——大数据,而开采出来的大数据则用于人工智能(AI),因为AI会是数字化时代的电。

越来越多的人往数据行业发展,大企业也都开始使用大数据,运用人工智能进行各种业务分析和预测。大家都知道大数据是什么,但具体涉及到数据科学和人工智能时,很多人可能一时给不出比较具体的解释说明。
Mean Value小编通过这篇文章想跟大家科普下 Data Science, machine learning, deep learning 还有 artificial intelligence 的关系和区别。

01 这几个概念的关系和区别

我们先来看看David Robinson,DataCamp首席数据科学家在 『What’s the difference between data science, machine learning, and artificial intelligence?』 一文中给数据科学、机器学习和人工智能三个领域提出的一个简单的定义:

  • 数据科学负责见解
  • 机器学习负责预测
  • 人工智能负责行为

但是David也指出这不是一个充分条件:不是所有符合该定义的东西都是该领域的一部分。但他认为这个定义对区分这三种工作是一种非常有效的方法,并且可以避免你谈论它的时候听起来很傻。

1 Data Science数据科学

数据科学与其他两个领域不同,因为它的目标跟人类的目标尤其接近:获得洞察力和理解力。同样,并不是所有产生洞察力的都有资格成为数据科学,数据科学的经典定义是它涉及了统计学,软件工程和领域专业知识的组合。但是我们可以利用这个定义来区分它和ML、AI。它们最主要的区别在于,在数据科学循环过程中总需要人参与:由人理解洞察结果,了解大体轮廓,或者从结论中获益。所以像“下棋算法使用数据科学来选择下一步”或者“谷歌地图使用数据科学来推荐驾驶方向”这些说法都是毫无意义的因此,数据科学的定义强调:

  • 统计推断
  • 数据可视化
  • 实验设计
  • 领域知识
  • 沟通

数据科学家可能使用一些简单的工具:可以报告百分比,并根据SQL查询结果绘制线形图。还可以使用非常复杂的方法:能够与分散的数据仓库合作,分析数以万亿计的记录,开发最前沿的统计技术,建立交互式可视化。但是不管使用什么,目的都是为了更好地理解数据。

2 Machine Learning机器学习

大体来讲,机器学习就是用算法真正解析数据,不断学习,然后对事件中发生的事做出判断和预测。
正如David所说,几乎所有的Kaggle竞赛都可以被认为是机器学习相关的问题:他们提供一些tranining data,然后看看竞赛者能否对新的例子做出准确的预测。
数据科学和机器学习有很多的重叠之处。例如,都可以用逻辑回归来获取对有关关系的见解(越富裕的人越有可能购买我们的产品,所以我们应该改变我们的营销策略)并且可以做出预测(该用户有53%的几率购买我们的产品,所以我们应该多向他们推销)。
但同时像随机森林(random forests)这样的模型,其可解释性稍差,所以更适合“机器学习”的描述。
大多数的从业者能够非常自在的在两个领域之间来回切换。David举例他在工作中就同时使用了机器学习和数据学习:在Stack Overflow流量数据上安装一个模型,以确定哪些用户可能正在寻找工作(机器学习),然后构建总结和可视化来检验模型的工作原理(数据科学)。这是发现模型缺陷的一个重要方法,也是解决算法偏差的重要方法。所以是数据科学家常常负责开发产品的机器学习组件的原因之一。

3 Artificial intelligence人工智能

人工智能有强人工智能和弱人工智能之分。
“强人工智能(General AI)”,就是打造一台超棒的机器,让它拥有人类的所有感知,甚至还可以超越人类感知,它可以像人一样思考。在电影中我们经常会看到这种机器,比如终结者。
还有一个概念是“弱人工智能(Narrow AI)”。简单来讲,“弱人工智能”可以像人类一样完成某些具体任务,有可能比人类做得更好,例如,Pinterest服务用AI给图片分类,Facebook用AI识别脸部,这就是“弱人工智能”。
人工智能是迄今为止这几种概念里最古老也是最广为人知的,因此定义它也最具有挑战性。但同时这一术语早已被大量的滥用和营销。

图片来自:今日头条从上图可知,我们可以看到它与其他领域有很多重叠之处。而深度学习横跨了ML和AI两个领域,典型的事例是对数据进行训练,然后生成预测,但在AlphaGo这样的博弈算法中却取得了巨大的成功。但也有区别。David指出如果分析一些销售数据并发现某个特定行业的客户比其他行业的客户更新的更多,那么输出的是一些数字和图形,而不是指定操作 (高管们可能会用这些结论来调整销售策略,但这种做法并不是自动的)。人工智能和机器学习之间的区别更加微妙,历史上的ML经常被认为是AI的一个分支。但也有人认为,现在的机器学习和人工智能已经不再是从属包含关系了:大多数从事预测问题的人不喜欢把自己描述为人工智能研究员。

关于机器学习、人工智能等等概念上的关系和区别也一直有争议,大家有什么其他意见和看法呢? 欢迎留言!

2018© Copyright - Mean Value Consulting