人类的视觉系统承担了大部分的信息感知任务,视网膜检测含有信息的入射光,如强度、波长和持续时间,将其转换为神经脉冲,并通过光神经和突触将其传递给大脑。模拟视觉感知的功能将是迈向机器人视觉和人工智能的关键一步。与电刺激的人工突触相比,光电突触因其高带宽,低能耗,高传输速度等特点在构建神经网络中有巨大潜力,但由于光电突触在读取信息时仍要进行光电转化,使得降低能耗、提高速度存在一定瓶颈。因此,我们基于三氧化钨光致变色材料进行全光的视觉感知学习模拟,零接触读取光信号,验证了材料的学习经验行为,并通过人工神经网络证明了延长对材料的训练时间可以提高对手写数字的识别精度,为实现构建更快、更省能的全光视觉感知神经系统提供了新思路。 The human visual system undertakes most of the information-sensing task, with the retina detecting incident light containing information, such as intensity, wavelength, and duration, converting it into nerve impulses, which are transmitted to the brain through nerves and synapses. The ability to simulate visual perception will be a key step toward robotic vision and arti-ficial intelligence. Compared with electrically stimulated artificial synapses, photoelectric synapses have great potential in the construction of neural networks due to their characteristics of high bandwidth, low energy consumption, and high transmission speed. However, photoelectric synapses still need to be converted when reading information, so there is a certain bottleneck in reducing energy consumption and improving speed. Therefore, we simulated all-light visual perception learning based on tungsten trioxide photochromic materials, and read optical signals with zero contact, which verified the learning experience behavior of materials. Moreover, through artificial neural networks, we proved that extending the training time of materials can improve the recogni-tion accuracy of handwritten digits, providing a new idea for realizing the construction of a faster and more energy-saving visual perception nervous system.
人类的视觉系统承担了大部分的信息感知任务,视网膜检测含有信息的入射光,如强度、波长和持续时间,将其转换为神经脉冲,并通过光神经和突触将其传递给大脑。模拟视觉感知的功能将是迈向机器人视觉和人工智能的关键一步。与电刺激的人工突触相比,光电突触因其高带宽,低能耗,高传输速度等特点在构建神经网络中有巨大潜力,但由于光电突触在读取信息时仍要进行光电转化,使得降低能耗、提高速度存在一定瓶颈。因此,我们基于三氧化钨光致变色材料进行全光的视觉感知学习模拟,零接触读取光信号,验证了材料的学习经验行为,并通过人工神经网络证明了延长对材料的训练时间可以提高对手写数字的识别精度,为实现构建更快、更省能的全光视觉感知神经系统提供了新思路。
光致变色材料,全光学习,感知学习,类脑计算
Nan Wang1,2, Xi Chen2*
1Centre for Artificial-Intelligence Nanophotonic, School of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology, Shanghai
2Institute of Photonic Chips, Shanghai
Received: Apr. 11th, 2023; accepted: May 22nd, 2023; published: May 30th, 2023
The human visual system undertakes most of the information-sensing task, with the retina detecting incident light containing information, such as intensity, wavelength, and duration, converting it into nerve impulses, which are transmitted to the brain through nerves and synapses. The ability to simulate visual perception will be a key step toward robotic vision and artificial intelligence. Compared with electrically stimulated artificial synapses, photoelectric synapses have great potential in the construction of neural networks due to their characteristics of high bandwidth, low energy consumption, and high transmission speed. However, photoelectric synapses still need to be converted when reading information, so there is a certain bottleneck in reducing energy consumption and improving speed. Therefore, we simulated all-light visual perception learning based on tungsten trioxide photochromic materials, and read optical signals with zero contact, which verified the learning experience behavior of materials. Moreover, through artificial neural networks, we proved that extending the training time of materials can improve the recognition accuracy of handwritten digits, providing a new idea for realizing the construction of a faster and more energy-saving visual perception nervous system.
Keywords:Photochromic Materials, All-Optical Learning, Perceptual Learning, Brain-Like Computing
Copyright © 2023 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
视觉是人类的基础知觉之一,是一种从外部环境中检测光线模式,然后解释、翻译并将这些信号转换为图像的能力 [
在这里,我们提出了一种基于金属氧化物三氧化钨(WO3)光致变色材料的非接触式的全光感知学习器件,如图1所示,在波长为365 nm的紫外光LED刺激下可以产生透过率的持续变化,用人工神经网络来模拟人类感知学习的典型特征,即感官系统的能力通过不断学习得到增强,重新获得以前学习过的又遗忘的能力所需的时间更少,第二次遗忘的速度会更缓慢。这种感知学习能力为具有视觉感知学习的高性能智能设备提供了思路。该全光感知学习器件结构简单,且非接触式的光学透过率的测量具有零读取能耗的优势,在神经形态计算和视觉感知神经系统中有巨大应用潜力。
图1. 通过紫外LED刺激WO3薄膜进行的感知学习示意图
WO3是一种典型的过渡金属氧化物,在显色 [
本文中三氧化钨薄膜是通过典型的水热法制成的。将0.3 g水合钨酸铵(化学式(NH4)10H2(W2O7)6、分子量3060.46)和6.3 g草酸二水合物(化学式C2H2O4·2H2O、分子量126.07)溶于40 g无水乙醇,制得用于水热合成的前驱体溶液。产生的混合物用磁力搅拌器搅拌40分钟,等量装入两个容量为50毫升的内衬材质为聚四氟乙烯的高压反应釜中。将一块FTO (掺杂氟的导电玻璃,即SnO2:F)放入高压反应釜中,导电面朝下斜靠在反应釜内壁上 [
薄膜样品直接粘到导电胶上,并使用Oxford Quorum SC7620溅射镀膜仪喷金45 s,喷金电流为10 mA;随后通过场发射扫描电子显微镜(SEM,仪器型号ZEISS Gemini 300)拍摄了样品表面形貌和截面厚度,形貌拍摄时加速电压为3 kV。用X射线衍射分析仪(XRD,仪器型号日本RigakuD/max-2200PC)对制备的薄膜进行结晶度研究。使用紫外(UV) LED光源(波长λ = 365nm)照射薄膜样品使之由漂白态(黄色)转化为着色态(蓝色),使用紫外分光光度计(岛津UV-2600i/2700i)在300 nm~800 nm波长范围内进行光学吸收率和透过率的测量。实时光透过率变化量(ΔT)使用Avaspec-ULS2048CL-EVO高速CMOS光谱仪根据λ = 600 nm处光透过率的差值来测量。
从混合国家标准与技术研究所(MNIST)数据集中选择了28 × 28像素的0~9手写数字20,000张作为训练图像、10,000张作为测试图像,在这些图像中添加了随机噪声。该神经网络包含784个输入神经元和10个输出神经元。测量了不同紫外光照时间下样品在600 nm处透过率的变化。将样品接受15秒紫外光照后产生的透过率变化值定义为像素灰度值为255,设定灰度值和透过率变化值之间的直接比例关系,以获得用于图像识别的测试集。仿真算法由Python语言开发,其中突触权重由随机梯度上升/下降算法更新,确定学习率为0.01,预期误差值设定为1 × 10−3,每个输出神经元使用一个sigmoid函数产生一个从0到1的信号。
图2. 薄膜表面(放大)和截面的SEM图像
图3. 薄膜的XRD图谱
图4. 薄膜在着色和漂白状态下的吸收光谱
图5. 薄膜在着色和漂白状态下的透射光谱
水热法制备的WO3薄膜样品的扫描电镜图像如图2所示,因为(NH4)10H2(W2O7)6在乙醇中的弱溶性,随着水热反应温度的升高,草酸脱水损失的水分子促进了(NH4)10H2(W2O7)6的水解,生长成带状WO3纳米结构。可以观察到在180℃水热生长4 h后,薄膜由纳米带阵列组成,纳米带宽度为200 nm~400 nm,厚度约为20 nm (图2插图)。从截面的扫描电镜图(图2插图)来看,制备的薄膜厚度约为2.8 µm。通过X射线衍射(XRD)检查WO3纳米薄片的晶体结构,图3为制备的薄膜的XRD谱图。WO3纳米薄片的所有衍射峰(不包括FTO玻璃的峰)都可以很好地匹配到单斜晶结构中(JCPDS No. 43-1035),薄膜结晶良好。在着色和漂白状态下对应的紫外–可见吸收光谱和透射光谱如图4和图5。样品对紫外光吸收较高,可见光范围内透过率较高,漂白状态下600 nm处可见光透过率为76.4%,紫外光照射下由黄色漂白态变为蓝色着色态,600 nm处透过率为68.6%。
生物学上,当人们学习知识时,大脑会经历学习、遗忘、再学习三个重要的过程来进行记忆水平的加强。通过学习,人类能够增强对知识的理解,随着时间消逝,大脑会慢慢忘记一部分知识。但是,当再次学习时,大脑在更短的时间内便达到与之前相同的学习水平,这种现象被称为“学习–经验”行为。通过实时光谱测试来观察WO3薄膜在600 nm的透过率变化。如图6所示,如果对WO3薄膜突触相继使用两次光照来激发,首次光照15 s产生的吸收率变化量ΔT为2.07%,然后撤去紫外光,吸收率变化量在光照间隔内自发衰减,ΔT在120 s时间内由2.07%降至1.17%,这表明了WO3薄膜非易失的记忆效应,类似于学习后会对所学信息有所遗忘的表现。而为弥补吸收率的衰减,在第二次光照过程中需要的光照时间会显著的少于第一次光照的时间,第二次使用紫外光照时,ΔT由1.17%增长至2.08%需要10 s,而在第一次紫外光照时完成相同的ΔT增长则需要至少12 s。在相同时间内,第二次刺激过程后吸收率的衰减要比第一次刺激过程后小,第一次光照结束后120 s内ΔT下降了0.9%,第二次光照结束后的120 s内ΔT只下降了0.6%。这种行为类似重新学习遗忘的信息比第一次学习时容易,并且重新学习的过程可以增强记忆的稳定性。
图6. 365 nm LED照射下WO3薄膜600 nm光透过率的突触记忆特征
在WO3薄膜突触光激发下的透过率记忆性的基础上,我们模拟了典型的感知学习功能—即人类视网膜神经元网络的图像识别感知过程。这里我们记录了样品受到紫外光LED照射后的透过率变化值,然后模拟了一个28 × 28透过率阵列的光学图像“9”,该光学图像选自MNIST数据集,并在MNIST图像中加入随机噪声。设计了由28 × 28输入阵列和10个输出神经元组成的神经网络,对MNIST手写数字进行感知学习训练和测试。图7和图8为数字“9”灰度图像(28 × 28像素)和神经网络结构。输入是一个784像素的图像,输出神经元对应于数字0~9。图9为受到5 s紫外光照后的图像识别结果,每个类别在输出神经元中的百分比值表示对应数字的概率,由于数字9的概率最大,人工神经网络成功地将手写数字图像识别为数字“9”。
图7. 手写数字“9”的灰度图像
图8. 人工神经网络结构示意图
图9. 人工神经网络模拟得出的权重图
然后,我们研究了不同光照时间下图像识别准确率的变化。图10为样品在学习过程中分别受到2 s、5 s、8 s、11 s和15 s紫外光照射后的数字“9”图案图像。可以发现当紫外光照射时间较短时,由于噪声的影响,图像分辨率较差。随着紫外光照时间的增加,也就是学习时间加长,信噪比逐渐增大,图像逐渐变得清晰。图10显示了10,000张MNIST测试图像的识别精度与紫外光照时间的关系。紫外光照2 s时,对测试集识别准确率只有30.39%,随着紫外光照时间的增加,识别精度有了很大的提高,紫外光照5 s时,识别准确率为84.28%,紫外光照8 s时,识别准确率就达到了90%以上。紫外光照15 s后,准确率升至94.76%,比只光照2 s时提高了3倍左右。该结果模拟了感知学习中准确率随学习时间上升的现象。
图10. 学习过程中手写数字“9”的时变灰度图像和图像识别精度随学习时间的变化
图11. 遗忘过程中手写数字“9”的时变灰度图像和图像识别精度随遗忘时间的变化
通过人工神经网络,我们已经证明了感觉系统对刺激做出反应的能力可以通过学习经验来增强,这是感知学习的典型特征。之后,人类感知学习中的遗忘过程也被模拟。在施加15 s紫外光后撤去紫外光,我们计算了手写数字“9”的识别准确率的变化。图11为样品在撤去紫外光后2 s、30 s、60 s、90 s和120 s后的数字“9”图案图像。随着遗忘过程持续时间的增加,图像对比度逐渐下降。同时,图像识别的准确率也在此期间下降(图11),在撤去紫外光后的30 s时,识别准确率从2 s时的94.69%降到88.98%,60 s后降到85.11%,90 s后降到81.63%,撤去紫外光后的120 s时,识别准确率只有77.76%。
当数字“9”的识别准确率下降到77.76%时,我们通过第二次紫外光照启动图像识别的再学习过程。图12为再次使用紫外光照射2 s、5 s、8 s、11 s和15 s后的数字“9”图案图像,模拟人脑遗忘后再次学习的过程。紫外光刺激下的数字“9”的图像随着第二次学习时间的加长,透过率产生更大变化,图像的对比度增加。第二次光照只需要更短的时间就可以恢复精度损失(图12),再学习9 s时,识别准确率由2 s时的80.1%恢复到95.04%。恢复先前学习丧失的能力所需的时间更少,这是感知学习的另一个典型特征。“学习–遗忘–再学习”的行为验证了可以通过对紫外光响应进行对人类知觉学习的模仿。
图12. 再学习过程中手写数字“9”的时变灰度图像和图像识别精度随再学习时间的变化
本文通过水热法在FTO玻璃导电面上原位生长了WO3纳米带薄膜,使用波长为365 nm紫外光照射WO3使之产生透过率变化的光致变色现象,采集WO3光照前后在600 nm处光透过率的变化量,验证了该材料具有模拟生物视觉神经系统记忆效应。通过人工神经网络验证了该材料的视觉感知学习能力,满足感知学习的两大特征:一是感知系统对刺激做出反应的能力可以通过学习经验来增强,在学习过程中,对手写数字的识别精度随光照时间延长而升高;二是恢复先前学习丧失的能力所需的时间更少,遗忘120 s后再学习的过程中,达到相同识别精度需要的光照时间更少。该全光视觉感知系统可以通过对紫外光响应进行对人类视觉感知学习的模仿,且结构简单,具有零读取能耗、光速传递信息速度快的优势,在神经形态计算和视觉感知神经系统中有巨大应用潜力。
王 楠,陈 希. 基于三氧化钨光致变色材料的全光视觉感知学习 All Optical Visual Perceptual Learning Based on Tungsten Trioxide Photochromic Materials[J]. 纳米技术, 2023, 13(02): 69-78. https://doi.org/10.12677/NAT.2023.132007
https://doi.org/10.1002/aisy.201900118
https://doi.org/10.1002/adma.201803637
https://doi.org/10.1016/j.brainres.2008.05.017
https://doi.org/10.1038/nature03687
https://doi.org/10.3389/fpsyg.2010.00175
https://doi.org/10.1016/j.conb.2005.03.010
https://doi.org/10.1063/5.0096692
https://doi.org/10.1038/s41467-021-22047-w
https://doi.org/10.1109/LED.2022.3149900
https://doi.org/10.1016/j.apsusc.2022.155682
https://doi.org/10.1186/s43074-020-0001-6
https://doi.org/10.1002/app.49863
https://doi.org/10.1021/acsami.5b08211
https://doi.org/10.1021/acscatal.5b01522
https://doi.org/10.1021/am504158r
https://doi.org/10.1039/C7TC04189F
https://doi.org/10.1039/C4TA03431G
https://doi.org/10.1016/j.solmat.2013.11.002
https://doi.org/10.1021/acs.nanolett.5b02642
https://doi.org/10.1039/c2nr31203d
https://doi.org/10.1016/j.solmat.2009.05.003
https://doi.org/10.1016/j.solmat.2017.06.009