AI狼抓羊太累我选择自杀

有这样一匹狼

不爱抓羊

逼急了就撞石头自杀

这究竟是人工智能

还是“人工智障”?

近日,微博上一位网友二雨TR最近发文称,“听我老师给我讲他搞游戏AI的事情笑死我了”。

根据他的介绍,他的老师写了一个简单的游戏项目来训练AI。

在这个项目中,研究人员给设定了狼吃羊游戏的基本原则是,狼在20秒内得分越高越好,而羊在20秒内存活时间越长得分越高。开局两只狼,还有六只羊,地图上红色带x的字符就是狼和羊随机出现的可能位置。

狼和羊前面有6根射线,是用来感知范围。当这6根线和障碍物以及地图边界碰撞,就会返回一个坐标。那根坐标白线便是狼和离它最近羊的连接,这样狼就可以每次优先吃掉最近的那只羊。

在研究人员开始训练的最初阶段,先固定了羊的位置,让狼去学习抓羊。在狼学会抓羊后,羊也以随机的位置出现在游戏中。狼抓到羊,奖励10分;狼撞到障碍物,扣1分。为了节省狼抓羊的时间,每秒钟狼都会受到0.1的惩罚。其中,羊撞到石头不会死,只要存活时间长,羊就能得到高分。如果这两只狼想要在20秒以内得到高分,需要狼吃到羊的数量越多越好,吃羊所用时间越短越好。

在研究人员进行了20w次训练之后,竟然发现狼抓羊的效果越来越差,多数情况下狼根本吃不到羊,在抓羊的过程中因为浪费时间还要被扣分,还不如一开始就一头撞死,这样扣得分还少一点。

该项目的一位研究人员Sdust星尘研表示,之所以会自杀,是因为狼在前几万次的训练中发现一头撞死只扣-1.1分(-1 +-0.1);往羊那边走两步撞死扣-1.1到-2.4分;偶尔一次能吃到,虽然正分,但是不值得。

狼为什么会选择直接撞死呢?

因为自杀分数最高:

如果抓羊,在狼学会躲避障碍物之前它是碰不到羊的。假设前5w次狼做了一些绕开障碍的尝试但是都死了。

那他通过这5w次学到的东西就是——

原地站着15秒得-1.5分;

一头扎死得-1.1分;

尝试绕路但是撞死得-1.1到-2.4分。

所以由于狼根本没有吃到过羊,因此狼在-1.1到-2.4分之间选择了-1.1,也就是自杀。

星尘研在B站中的视频表示,狼自杀的错误是很多因素共同影响产生的,最主要的原因是迭代次数太少,20W次完全不够学。后面提高到100W次起步,效果直线上升,在训练了300万次后,狼终于可以成功地吃到羊。

另一个就是奖励分数设置有问题,最后他们控制在了-2到1之间,效果也很好。大概在第十九代狼的时候就差不多可以用了,但是因为项目时间问题就没再接着往后训练了,狼还是有点蠢。

星尘研刚好把这个事情的大概经过以及狼抓羊的游戏录制了一个说明视频放在了B站上面:视频的名字叫做《今天微博上好像有一个内卷AI狼》。有兴趣的可以去看一看。

上一章目录+书架下一章