AI通過閱讀理解學習人類價值觀

如何防止AI干出不利于人类的事情？阿西莫夫在机器人系列中设定了三个法则，但正如阿西莫夫自己所描述的，机器人是可以不违反特定法则的情况下违反法则意图的。如果人类程序员难以枚举所有的人类价值，那么是否可以让AI去学习人类价值？美国乔治亚理工学院的Mark O. Riedl和Brent Harrison发表了一篇论文（PDF），描述了让AI阅读和理解故事去学习人类的价值。Riedl教授说，他们在虚拟环境中模拟运行了数千次，每一次AI的行为如果与故事中描述的行为相似，那么它们将会奖励，否则将会得到惩罚。通过奖励和惩罚，AI将学会偏爱做一些事情，避免做另一些事情，AI学会像人类那样执行一个任务。Riedl教授称，AI还没有学会不要去偷东西，但它在阅读之后学会了不喜欢偷东西。