Обучение с подкреплением импульсной нейронной сети с использованием следовых переменных для синаптических весов с мемристивной пластичностью
- Авторы: Кулагин В.А.1, Мацукатова А.Н.1,2, Рыльков В.В.1, Демин В.А.1
- 
							Учреждения: 
							- Национальный исследовательский центр “Курчатовский институт”
- Московский государственный университет им. М.В. Ломоносова
 
- Выпуск: Том 54, № 3 (2025)
- Страницы: 213-223
- Раздел: МЕМРИСТОРЫ
- URL: https://rjpbr.com/0544-1269/article/view/689383
- DOI: https://doi.org/10.31857/S0544126925030033
- EDN: https://elibrary.ru/PXCGWE
- ID: 689383
Цитировать
Полный текст
 Открытый доступ
		                                Открытый доступ Доступ предоставлен
						Доступ предоставлен Доступ платный или только для подписчиков
		                                							Доступ платный или только для подписчиков
		                                					Аннотация
Импульсные нейронные сети, пригодные для аппаратной реализации на основе мемристоров, весьма перспективны для робототехники в силу своей энергоэффективности. Однако алгоритмы обучения с подкреплением с применением таких сетей остаются малоизученными. Одной из ключевых мотиваций применения мемристоров в качестве весов сети является, помимо энергоэффективности, способность их обучения (изменения проводимости) в режиме реального времени за счет наложения импульсов напряжения от пре- и постсинаптических сигналов. В статье представлены результаты численного моделирования импульсной нейронной сети (ИНС) с мемристивными синаптическими связями, приблизительно решающей задачу оптимального управления с использованием следовых переменных для изменений весов, позволяющих приблизиться к обучению с подкреплением в истинном масштабе времени. Показана принципиальная возможность такого обучения в задаче с удержанием шеста на подвижной платформе, приведено сравнение различных функций наград, сделаны предположения о способах повышения эффективности этого подхода.
Полный текст
 
												
	                        Об авторах
В. А. Кулагин
Национальный исследовательский центр “Курчатовский институт”
							Автор, ответственный за переписку.
							Email: Kulagin.v.a@outlook.com
				                					                																			                												                	Россия, 							Москва						
А. Н. Мацукатова
Национальный исследовательский центр “Курчатовский институт”; Московский государственный университет им. М.В. Ломоносова
														Email: Kulagin.v.a@outlook.com
				                					                																			                								
Факультет физики
Россия, Москва; МоскваВ. В. Рыльков
Национальный исследовательский центр “Курчатовский институт”
														Email: Kulagin.v.a@outlook.com
				                					                																			                												                	Россия, 							Москва						
В. А. Демин
Национальный исследовательский центр “Курчатовский институт”
														Email: Kulagin.v.a@outlook.com
				                					                																			                												                	Россия, 							Москва						
Список литературы
- Black K., Brown N., Driess D., et al. π0: A Vision-Language-Action Flow Model for General Robot Control. Physical Intelligence, San Francisco, California. 2024. https://www.physicalintelligence.company/download/pi0.pdf
- Kalashnikov D., Varley J., Chebotar Y., et al. Mt-opt: Continuous multi-task robotic reinforcement learning at scale, arXiv preprint arXiv:2104.08212. 2021.
- Khimya Khetarpal, Matthew Riemer, Irina Rish, and Doina Precup. Towards continual reinforcement learning: A review and perspectives. arXiv preprint arXiv:2012.13490. 2020
- Ielmini D., & Menzel S. Universal switching behavior. In Resistive switching- from fundamentals of nanoionic redox processes to memristive device applications. Weinheim: Wiley-VCH. 2016. P. 317.
- Pershin Y.V., & Di Ventra M. Experimental demonstration of associative memory with memristive neural networks. Neural Networks, 2010. V. 23. № 7. 881–886. http://dx.doi.org/10.1016/j.neunet.2010.05.001
- Zhu J., Zhang T., Yang Y., & Huang R. A comprehensive review on emerging artificial neuromorphic devices. Applied Physics Reviews, 2020. V. 7. № 1. Article 011312. http://dx.doi.org/10.1063/1.5118217
- Berggren K., Xia Q., Likharev K.K., Strukov D.B., Jiang H., Mikolajick T., et al. Roadmap on emerging hardware and technology for machine learning. Nanotechnology, 2020. V. 32. № 1. Article 012002. http://dx.doi.org/10.1088/1361-6528/aba70f
- Mnih V. et al. Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602. 2013.
- Kharlanov O.G., Shvetsov B.S., Rylkov V.V., Minnekhanov A.A. Sta bility of quantized conductance levels in memristors with copper filaments: Toward understanding the mechanisms of resistive switching. Physical Review Applied, 2022. V. 17. Article 054035. http://dx.doi.org/10.1103/PhysRevApplied. 17.054035
- Minnekhanov A.A., Shvetsov B.S., Martyshov M.M. et al. On the resistive switching mechanism of parylene-based memristive devices. Organic Electronics, 2019. V. 74. P. 89–95. http: //dx.doi.org/10.1016/j.orgel.2019.06.052
- Matsukatova A.N., Emelyanov A.V., Kulagin V.A. et al. Nanocomposite parylene-C memristors with embedded Ag nanoparticles for biomedical data process ing. Organic Electronics, 2022. V. 102. Article 106455. http://dx.doi.org/10.1016/j.orgel. 2022.106455
- Minnekhanov A.A., Emelyanov A.V., Lapkin D.A. et al. Parylene based memristive devices with mul tilevel resistive switching for neuromorphic applications. Scientific Reports, 2019. V. 9. № 1. P. 10800. http://dx.doi.org/10.1038/s41598-019-47263-9
- Kvatinsky S., et al. VTEAM – A General Model for Voltage Controlled Memristors // IEEE Transactions On Circuits And Systems – Ii: Express Briefs, 2015. Vol. 62. No. 8.
- Emelyanov A.V., Lapkin D.A., Demin V.A. et al. First steps towards the realization of a double layer perceptron based on organic memristive devices. AIP Advances, 2016. V. 6. № 11. Article 111301. http://dx.doi.org/10.1063/1.4966257
- Sboev A., Serenko A., Rybka R., Vlasov D. Solving a classification task by spiking neural network with STDP based on rate and temporal input encoding. Mathematical Methods in the Applied Sciences, 2020. V. 43. № 13. P. 7802–7814. http://dx.doi.org/10.1002/mma.6241
- Gütig R., Sompolinsky H. The tempotron: a neuron that learns spike timing–based decisions. Nature Neuroscience, 2006. V. 9. № 3. P. 420–428.
- Wang X., Hou Z.-G., Lv F., Tan M., Wang Y. Mobile robots’ modular navigation controller using spiking neural networks. Neurocomputing, 2014. V. 134. P. 230–238. http://dx.doi.org/10.1016/J.NEUCOM.2013.07.055
- Yu Q., Tang H., Tan K.C., Yu H. A brain-inspired spiking neural network model with temporal encoding and learning. Neurocomputing, 2014. V. 138. P. 3–13. http://dx.doi.org/10.1016/j.neucom.2013.06.052
- Vlasov D., Minnekhanov A., Rybka R., et al. Memristor-based spiking neural network with online reinforcement learning, Neural Networks, 2023. V. 166. https://doi.org/10.1016/j.neunet.2023.07.031
- Hazan H., Saunders D.J., Khan H., Patel D. BindsNET: A Machine Learning-Oriented Spiking Neural Networks Library in Python // Front. Neuroinform. 2018. V. 12. P. 89.
- Sboe A., Serenko A., Rybka R., Vlasov D. Solving a classification task by spiking neural network with STDP based on rate and temporal input encoding. Mathematical Methods in the Applied Sciences, 2020. V. 43. № 13. P. 7802–7814. http://dx.doi.org/10.1002/mma.6241
- Sboev A., Vlasov D., Rybka R., Davydov Y., Serenko A., Demin V. Modeling the dynamics of spiking networks with memristor-based STDP to solve classification tasks. Mathematics, 2021. V. 9. № 24. P. 3237:1–10. http://dx.doi.org/10.3390/math9243237, URL https://www.mdpi.com/2227-7390/9/24/3237
- Richard S., Sutton and Andrew G. Barto. Reinforcement Learning. 2nd Ed. The MIT Press. ISBN: 978-0-262-19398-6. 2018, p. 329.
- Mnih V., et al. Asynchronous methods for deep reinforcement learning //International conference on machine learning. PmLR. 2016. P. 1928–1937.
- Frémaux N, Sprekeler H, Gerstner W.Re inforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons. PLoS Comput Biol. 2013. V. 9. № 4. P. e1003024. https://doi.org/10.1371/journal.pcbi.1003024
Дополнительные файлы
 
				
			 
						 
						 
						 
					 
						 
									

 
  
  
  Отправить статью по E-mail
			Отправить статью по E-mail 







