Loading...
墨滴

在IT中穿梭旅行

2021/09/22  阅读:34  主题:自定义主题1

当机器学习拥有思维后....

前言

大家好,我是土哥。

今天我想给我的读者讲讲机器学习背后的故事。

对于人类而言,机器学习是一把双刃剑,在未来,机器学习和深度学习将扮演非常重要的角色,这将会出现无人驾驶、无人超市、智能交警、甚至在日常生活中出现机器人保姆、机器人外卖小哥等。

相信很多读者都看过 机械公敌这部科幻片,一位名叫阿尔弗莱德·朗宁的博士为机器人赋予三大定律:

  1. 不能伤害人类,如果人类遇到麻烦,要主动帮助。
  2. 在不违背第一定律的前提下,服从人类的指令。
  3. 在不违背第一和第二定律的前提下,保护好自己。

通过这三大定律来让机器人服务人类,但是突然有一天,新一代NS-5型机器人拥有了思维,他们开始控制人类,试图去统治全人类。

其实这部电影想告诫人类,那就是当人工智能拥有自己的意识并产生自己的价值观的时候,人类将面临沉重的打击。

但为什么人工智能发展到后面可能会拥有自己的思维呢?

土哥接下来将分享关于机器学习的基础知识,帮助我的读者了解人工智能、机器学习背后的故事。

1、机器学习起源

或许大家没有注意到,其实你们每天都在不知不觉中使用了机器学习的算法。

你打开百度、Google、可以搜索到你需要的内容,正是因为他们有良好的学习算法,通过算法对网页进行排序实现快速检索。

你用手机图片分类程序,他能认出你朋友的照片,这也是机器学习

每次当你阅读电子邮件时,会通过算法将一些垃圾邮件进行筛选,放入垃圾箱,这也是机器学习。

那么,为什么机器学习如此受欢迎呢?

原因是,机器学习不只是用于人工智能领域。

当我们创造智能机器时,会涉及到一些算法。比如,可以让机器找到AB之间的最短路径,但要想让机器做更多有趣的事情该如何办呢?

后来发现,唯一的方法就是让机器自己学习怎么来解决问题。所以,机器学习已经成为计算机的一种能力。

机器学习涉及的领域非常广泛,可以给大家简单举几个例子:

  1. 数据库挖掘: 通过收集web上的单击数据,使用机器学习算法来分析数据,更好的了解用户,并为用户提供更好的服务。
  2. 医疗记录: 收集电子医疗记录,通过机器学习算法将医疗记录变成医学知识,来理解疾病。
  3. 生物学:收集大量基因数据序列、DNA序列,使用机器学习算法了解人类基因组。
  4. 无人机:收集飞行员、飞机的操作流程数据和飞行轨迹数据,使用机器学习算法训练模型,让飞机自动学会驾驶功能。

通过上述的几个例子,大家大概对机器学习有所了解,

接下来,我们正式了解一下,什么是机器学习?

2、机器学习的定义

第一个机器学习的定义来自于美国的前IBM员工 塞廖尔Arthur Samuel

他定义机器学习为:在进行特定编程的情况下,给予计算机学习能力的领域。

Samuel的定义可以回溯到50年代,他编写了一个西洋棋程序。

这程序神奇之处在于,编程者自己并不是个下棋高手。但因为他太菜了,于是就通过编程,让西洋棋程序自己跟自己下了上万盘棋。

通过观察哪种布局(棋盘位置)会赢,哪种布局会输,久而久之,这西洋棋程序明白了什么是好的布局,什么样是坏的布局。

然后就牛逼大发了,程序通过学习后,玩西洋棋的水平超过了Samuel。尽管编写者自己是个菜鸟,但因为计算机有着足够的耐心,去下上万盘的棋,通过这些练习,计算机获得无比丰富的经验,于是渐渐成为了比Samuel更厉害的西洋棋手。

目前最官方的定义,由来自卡内基梅隆大学机器学习领域的著名教授Tom Mitchell提出。

一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升

看了教授的定义,土哥认为 经验E 就是程序上万次的自我练习的经验。而任务T就是下棋。性能度量值 P 呢,就是它在与一些新的对手比赛时,赢得比赛的概率。

根据定义,给大家进行举一反三:

我们假设您的电子邮件程序会观察收到的邮件是否被你标记为垃圾邮件。在这种Email客户端中,你点击垃圾邮件按钮,报告某些Email为垃圾邮件,不会影响别的邮件。基于被标记为垃圾的邮件,您的电子邮件程序能更好地学习如何过滤垃圾邮件。

请问,在这个设定中,任务T是什么?T是 识别垃圾邮件,报告Email为垃圾邮件。

在这个设定中,P是什么?P是你的反馈,是垃圾邮件、或者不是垃圾邮件。

所以,以性能度量值P为标准,这个任务的性能,也就是这个任务T的系统性能,将在学习经验E后得到提高。

2.1、监督学习

在机器学习领域中,存在几种不同类型的学习算法。主要的两种类型被我们称之为监督学习(Supervised Learn)无监督学习(Unspervised Learn)

监督学习简单理解就是,我们将计算机如何去完成任务,

监督学习对未知事物的预测,一般分为两类问题:

  1. 回归问题: 预测连续值输出
  2. 分类问题:预测离散值输出

数据集给出正确答案(有标签,有y值)

我们通过两个例子来具体理解什么是回归问题和分类问题。

(1)预测房价 (回归问题)

土哥有位朋友在西安的房市场收集了一些房价的数据。把这些数据画出来表示如下:横轴表示房子的面积,单位是平方米,纵轴表示房价,单位是万元/平米。那基于这组数据,假如你有一个朋友,他有一套150平方米的房子,现在他希望把房子卖掉,他想知道这房子能卖多少钱。

那么关于这个问题,机器学习算法将会怎么帮助你呢?

我们应用学习算法,可以在这组数据中拟合一条直线,根据这条线我们可以推测出,这套房子可能卖230万元,当然这不是唯一的算法。

比如直接用二次方程去拟合可能效果会更好。根据二次方程的曲线,我们可以从这个点推测出,这套房子能卖接近300万元

在房价的例子中,我们给了一系列房子的数据,我们给定数据集中每个样本的正确价格,即它们实际的售价然后运用学习算法,算出更多的正确答案。用术语来讲,这叫做回归问题。我们试着推测出一个连续值的结果,即房子的价格

可以看出,监督学习指的就是我们给学习算法一个数据集。这个数据集由“正确答案”组成

(2)乳腺癌预测 (分类问题)

假设说你想通过查看病历来推测乳腺癌良性与否,假如有人检测出乳腺肿瘤,恶性肿瘤有害并且十分危险,而良性的肿瘤危害就没那么大,所以人们显然会很在意这个问题。

在上图这个数据集中,横轴表示肿瘤大小纵轴,用10表示是或者不是恶性肿瘤。我们之前见过的肿瘤,如果是恶性则记为1不是恶性,或者说良性记为0

我有5个良性肿瘤样本,在1的位置有5个恶性肿瘤样本。现在,如果一位朋友很不幸检查出乳腺肿瘤,并且肿瘤大小知道。

那么机器学习的问题就在于,能否估算出肿瘤是恶性的或是良性的概率。用术语来讲,这是一个分类问题

分类指的是,我们试着推测出离散的输出值01良性或恶性。

事实上,在分类问题中,输出可能不止两个值。比如说可能有三种乳腺癌,所以你希望预测离散输出0、1、2、3。0 代表良性,1 表示第1类乳腺癌,2表示第2类癌症,3表示第3类,但这也是分类问题

通过上述两个案例,我们介绍了监督学习。其基本思想是,我们数据集中的每个样本都有相应的“正确答案”,再根据这些样本作出预测

所有得到一个结论,监督学习都带有标签。即数据集给出正确答案(有标签,有y值)

2.2、无监督学习

无监督学习简单理解就是,我们打算让计算机自己进行学习

无监督学习的特点是:没有任何的标签

训练样本不含有标记(label)信息,既没有类别信息,也不会给定目标值。(没有属性或标签,不知道正确的答案)。

无监督学习对未知事物的预测,主要使用聚类算法

通过几个聚类案例说明 什么是聚类算法?

  1. 新闻分类:今日头条每天都在收集非常多的网络新闻内容。这些新闻各不相同,今日头条使用聚类算法自动地把它们聚类到一起。所以,不同主题的新闻,将这些新闻进行分组,组成有关联的新闻。
  2. 朋友圈分类:你经常发朋友圈,圈子有很多人,有的人和你是同事,有的是朋友,所以会将不同的朋友根据不同属性进行分组
  3. 市场分割。许多公司有大型的数据库,存储消费者信息。使用聚类算法检索这些顾客数据集,自动地对市场进行分类,并自动地把顾客划分到不同的细分市场中,进行更有效地的销售。

最典型的聚类案例如鸡尾酒宴问题。

在一个宴会大厅中,坐满了许多人,她们都在聊天,这么多人同时在聊天,声音彼此重叠,因为每个人都在说话,同一时间都在说话,你几乎听不到你面前那人的声音。

当鸡尾酒宴中的两个人,他俩同时都在说话,假设在鸡尾酒宴中。我们放两个麦克风在房间中,因为这些麦克风在两个地方,离说话人的距离不同每个麦克风记录下不同的声音,虽然是同样的两个说话人。听起来像是两份录音被叠加到一起,或是被归结到一起,产生了我们现在的这些录音。

通过聚类算法 分离出鸡尾酒会中同时说话的每个人的独立信号

通过整篇文章的介绍,我相信看完的朋友们应该都已经了解什么是机器学习。

我们再来回顾一下:

机器学习定义:一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升

机器学习主要分为:监督学习(Supervised Learn)无监督学习(Unspervised Learn)

(1)监督学习简单理解就是:我们将计算机如何去完成任务。

监督学习对未知事物的预测,一般分为两类问题:

  1. 回归问题: 预测连续值输出,如房屋预测。
  2. 分类问题:预测离散值输出,如乳腺癌预测。

监督学习都带有标签。即数据集给出正确答案(有标签,有y值)。

(2)无监督学习简单理解就是,我们打算让计算机自己进行学习

无监督学习的特点是:没有任何的标签

训练样本不含有标记(label)信息,既没有类别信息,也不会给定目标值。(没有属性或标签,不知道正确的答案)。

你们觉的,机器学习通过什么方式有可能会拥有思维呢?

本文原创作者:土哥、一位大数据算法工程师。

文章首发平台:微信公众号【3分钟秒懂大数据】

各位觉得文章讲的不错的话,不妨点赞(在看)、留言、转发三连走起!谢谢大家!

在IT中穿梭旅行

2021/09/22  阅读:34  主题:自定义主题1

作者介绍

在IT中穿梭旅行