陈根：面对两难，人工智能如何做出选择？

2020-11-29新闻27

文/陈根

选择分轻重，更分难易。简单选择只需根据目标做出判断，但对于两难选择来说，则是一种更复杂的思考和抉择。同时，两难选择，也是生活的必经之路，是生物所具有的本能。探究生物在两难选择里的大脑机制，将为人工智能的学习提供研究的进路。

近日，中国科学院自动化研究所类脑智能研究中心的研究人员就借鉴果蝇脑自主决策的神经机制，提出了类果蝇决策的脉冲神经网络模型，模型能够实现趋利避害的行为，并在两难抉择下快速做出清晰的选择。在无人机强化学习、反转学习和多难决策的任务上均得到了有效地验证。

具体来说，果蝇进行抉择存在基于经验的线性抉择和非经验的非线性抉择两大通路。在面临抉择任务时，果蝇会自适应地选择合适的通路进行不同复杂度的抉择。

此前研究中，研究人员曾令果蝇学会喜欢绿色正T的图案，而蓝色倒T的图案伴随热刺激惩罚。在选择阶段，转换了惩罚与视觉线索的搭配，让果蝇在绿色倒T和蓝色正T之间进行选择，以此测试果蝇在冲突视觉线索下的两难抉择行为。

实验发现，在不同的颜色强度下，通过统计果蝇在飞行过程中停靠在每个图案面前的时间分布，来了解果蝇连续的抉择行为，最终会得到一条呈“S”型的抉择曲线。

通过单细胞测序发现支持两难抉择下非线性曲线的神经机制是由多巴胺能神经元- GABA能神经元-蘑菇体环路负责的“增益-门控”抉择机制，这是一条基于价值的非线性抉择通路。而蘑菇体受损的果蝇只能执行简单的感知抉择，得到线性的抉择曲线。

在此次研究中，研究人员基于果蝇简单感知抉择（线性通路）和价值抉择（非线性通路）的神经机制，使用脉冲神经网络来构建多脑区协同的抉择模型。其中，线性通路建模了中央复合体的记忆功能来做出快速的抉择。非线性通路模拟了DA-GABA-MB环路实现增益-门控机制。

随后，将类果蝇抉择的脉冲神经网络模型应用到无人机抉择任务上，使用小拳头打击无人机来模拟惩罚信号，无人机可以学会飞向安全的视觉图形，并对视觉图形所包含的线索具有趋利避害的行为。此外，无人机能够灵活地适应任务的反转，仅经过4次错误选择就可以学会反转后的规则。

人工智能趋近人类智能是其未来所趋，不仅仅是在对确定目标的问题（有限游戏）上，更是在自我进化能力和对生物直觉的模仿上，在享受着人工智能带来的便捷时，也有更多的关涉投向人与智能的关系。为机器立心，将成为人工智能时代下一个不可回避的问题。