您的位置：首页 >文化 >

毕加索几何公牛「毕加索的「公牛」和机器学习的「特征工程」」

时间：2022-12-09 09:01:14 来源：王喆的机器学习笔记

大家好，毕加索几何公牛「毕加索的「公牛」和机器学习的「特征工程」」很多人还不知道，现在让我们一起来看看吧！

这里是「王喆的机器学习笔记」的第十六篇文章，今天我们放松一下，先不聊严肃的机器学习模型和算法，因为很多同学反映“别再更新了，老子实在学不动了。。”，那就换个空间，聊聊毕加索的一幅画吧。

硅谷创业教父Paul Graham在那本著名的“黑客与画家”里面提到，黑客和画家本质上有很多相通之处。在笔者看来，画家创作出来的画跟机器学习大神们提出的模型和理论也有相通之处，虽然我自己在两个领域都只能算得上入门，但谁也阻挡不了咱们自己表达感想嘛，这次就从毕加索一幅画——公牛，聊一聊抽象派的理念和机器学习的特征工程有什么相通之处。

公牛——毕加索 1946年1月17日

上面的画就是20世纪最著名的抽象派画家毕加索于1946年1月17日（为什么要精确到天，大家后面会知道）完稿的画作——公牛，寥寥几笔，勾勒出公牛的“特征”。很多人可能会觉得也许小学生也会画出上面的画嘛，但大师和小学生的区别就在于，大师得出这个终稿的过程是对一个哲学命题的探究——到底什么是“公牛”？到底缺了什么“特征”就不再是“公牛”？而小学生如果可以画出类似的画作，那是他对世界认识的本能。也许结果是一样的，但他们背后逻辑的深度是不同的。

敏感的同学肯定已经知道我为什么会说这幅画跟机器学习中的特征工程有密切的联系了。因为毕加索在画中留下的是决定一头公牛为什么是公牛的“特征”。而机器学习工程师工作的本质也是去伪存真，留下一堆数据中最重要的模式和特征，用最简洁的方式描述这堆数据，从而发现埋藏在数据后的模型和本质规律。

虽然我不是毕加索，但我还是会从“小学生”的眼光看这幅画的，在我眼里，这幅画留下的公牛最重要的特征有这么几个：

1.长长的犄角

2.长长的尾巴

3.宽大的身躯

4.粗短有力的后腿

5.不可或缺的小丁丁

有一些特征被极简化甚至忽视了，比如公牛头成了一个小小的圆圈，所以至少在毕加索的眼中，公牛的“小丁丁”远远比公牛的“头”重要。而对于吃瓜观众来说，也没有人会否认这幅画描绘的绝对是一头健壮的公牛，不是奶牛、老黄牛，更不是马，不是鹿，绝对的一头公牛。

我们可以说毕加索这位莫名闯入“机器学习”领域的算法工程师是合格的吗？我觉得大师不仅是合格的，更是超越了平凡的，他训练出的“模型”是异常卓越的。为什么这么说，我们做几个有趣的试验，看看改变几个特征之后，公牛还是不是公牛。

就拿最不起眼的尾巴来说吧，把它剪短，会怎么样？

剪短尾巴的“公牛”

还是公牛吗？还有当初的霸气吗？我总觉得它像一只体型肥胖的公羊。所以你不得不佩服毕加索这位算法工程师的功力，他不仅用“主成分分析”找到了最关键的维度，还精确计算出了特征的数值。

如果还觉得还不够有说服力的话，我们再做一个试验，把公牛的犄角截断一点点。

截断犄角的“公牛”

截断犄角的“公牛”还是公牛吗？也许它是，但却没有当初那般斩钉截铁了。因为少了几分攻击性，也许还是牛，却多了点鹿和羊的规规矩矩的温顺感。

当然，肯定还有同学对“小丁丁”这个特征感兴趣，我觉得这个试验就不用做了，你说把一个公牛净身之后，它还是不是公牛了。。

所以，毕加索做对了两个事情让公牛成为了公牛，一是找对了特征维度，二是找对了特征值。

就像程蝶衣对段小楼说的那句经典的“说好了是一辈子，差一年，差一个月，差一个时辰，都不是一辈子！”。我们套用到这里就是“说好了是一头公牛，差一尾巴，差一犄角，差一小丁丁，都不是一头公牛！”，再精确点就是“说好了是一头公牛，差一分米尾巴，差一厘米犄角，差一毫米小丁丁，都不是一头公牛！”。这才是毕加索这位算法工程师找对了特征和特征值之后应有的兴奋和自信。

仅此而已吗？并不是，在我看来，我们还应该从这位优秀的“同行”大师身上学三件事情：

1.模型泛化能力的重要性

2.特征组合的重要性

3.直觉与经验结合的调参能力

先说第一点，毕加索创作公牛的过程并不是一蹴而就的，即使他是“机器学习”的大师，也不可能第一次就直接训练出接近完美的模型。让我们看看他创作这幅画作的过程：