Inference acceleration and optimization in deep neural networks for computer vision.

Fekhr Eddine Keddous

Résumé

The best DNNs models tend to be very large sometimes even huge making them computationally and memory intensive. However, many real-world problems require for very fast inference time. For instance, machine vision applications demand real-time performance, with dozens of samples requiring inference every second. Many other applications rely on cloud inference computing, which can lead to overwhelming costs. The inference computational barrier opens a huge gap between the success of neural networks and their ability to handle real-world use cases. In this thesis, the focus was on the computational performance and the memory requirement aspects, especially during inference process. Regarding the acceleration strategy, we proposed the optimization of the use of the computational resources: the first proposal consists of a novel end-to-end large-scale Convolutional Neural Networks OpenCL-based targeting Intel FPGAs, called Fast Inference on FPGA for CNN (FFCNN), where the design spaces were investigated by deploying three large-scale CNNs for image classification (AlexNet, VGG-16 and ResNet-50 models were evaluated) on both FPGA boards Alaric and Nallatech. The second proposal is focus on vision transformer models acceleration. A novel LayerNorm layer that computes and saves statistical moments (moving mean and variance) during training was proposed and use them directly at inference process. Therefore, a merging of the normalization layer into the closest linear layer can be performed to improve the inference time of pre-trained Transformer models. Regarding memory optimization, we proposed two approaches for DNN compression in our work, which can significantly reduce the amount of memory storage and energy required to perform inference on large neural networks. In the first contribution, we replaced the FC layers with a Hopfield Neural Network (HNN): the new architecture combines CNN and HNN. The HNN is considered an associative memory that stores all features created by the CNN. The second contribution aims to achieve maximum compression efficiency for deep neural networks by integrating data reduction pre-processing techniques, filters based on fractional differentiation, evolutionary algorithms, and context-adaptive binary arithmetic coding.

Les meilleurs modèles de DNN ont tendance à être très volumineux, parfois même énormes, ce qui les rend gourmands en calculs et en mémoire. Cependant, de nombreux problèmes de terrain nécessitent un temps d'inférence très rapide. Par exemple, les applications de vision par ordinateur exigent des performances en temps réel, avec des dizaines d'images nécessitant une inférence par seconde. D'autres applications s'appuient également sur l'inférence mais dans le cloud, ce qui peut entraîner des coûts exorbitants en termes de consommation de calculs. La barrière de l'inférence est un énorme fossé entre le succès du déploiement des réseaux de neurones et leur capacité à gérer des cas d'utilisations industriels. Dans cette thèse, l'accent a été mis sur les performances en termes de vitesse de calculs et les occupations mémoire, lors du processus d'inférence. En ce qui concerne la stratégie d'accélération, nous avons proposé l'optimisation de l'utilisation des ressources de calculs : la première proposition est un nouveau réseau de neurones convolutionnels à grande échelle de bout en bout basé sur OpenCL ciblant les FPGA d'Intel, appelé ""Fast Inference on FPGA for CNN (FFCNN) "", où les espaces de conception ont été étudiés en déployant trois CNN à grande échelle pour la classification d'images (les modèles AlexNet, VGG-16 et ResNet-50 ont été évalués) sur les deux cartes FPGA Alaric et Nallatech. La deuxième proposition est axée sur l'accélération des modèles de transformers de vision. Dans ce cas, une nouvelle couche (LayerNorm) qui calcule et enregistre les moments statistiques (moyenne mobile et variance) pendant la formation a été ajoutée et utilise ces derniers directement lors du processus d'inférence. Par conséquent, une fusion de la couche de normalisation et de la couche linéaire la plus proche peut être effectuée pour améliorer le temps d'inférence des modèles transformers. En ce qui concerne l'optimisation de la mémoire, nous avons proposé deux approches pour la compression DNN dans notre travail, qui peuvent réduire considérablement la quantité de stockage de mémoire et l'énergie nécessaire pour effectuer l'inférence sur de grandes architecture. Dans la première contribution, nous avons remplacé les couches FC par un Hopfield Neural Network (HNN) : la nouvelle architecture combine CNN et HNN. Le HNN est considéré alors comme une mémoire associative qui stocke toutes les caractéristiques extraites par le CNN. La deuxième contribution vise à atteindre une efficacité de compression maximale pour les réseaux de neurones profonds en intégrant des techniques de prétraitement de réduction de données, des filtres basés sur la dérivation fractionnaire, des algorithmes évolutionnaires et un codage arithmétique binaire adaptatif au contexte.

Inference acceleration and optimization in deep neural networks for computer vision.

Accélération et optimisation de l'inférence dans les réseaux de neurones profonds pour la vision par ordinateur.

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager