|
Résumé :
|
La prédiction du rendement du blé est un enjeu majeur en contexte semi-aride. Elle bénéficie aujourd'hui de l'intégration de la modélisation des cultures et de l'apprentissage automatique. Cette synergie ouvre de nouvelles perspectives pour une agriculture plus durable et résiliente, notamment face à une forte variabilité climatique. Ce projet explore le potentiel d’apprentissage automatique (ML) couplé à un modèle de culture pour la prédiction du rendement du blé tendre dans le contexte semi-aride du plateau de Zaërs. Face au double enjeu de la complexité des modèles de culture et de la difficulté d’accès aux données de terrain, une méthodologie hybride, a été proposé. La première étape fondamentale a consisté en la mise en place d'un pipeline de traitement de données automatisé. À partir de plusieurs simulations issues du modèle APSIM, nous avons créé une base de données analytique via un processus d'ingénierie de caractéristiques, calculant plusieurs indicateurs agronomiques et climatiques pertinents, agrégés par phase phénologique (phase végétative, remplissage du grain). Une analyse exploratoire a ensuite validé la cohérence de cette base de données sur une période simulée de 30 ans, et a mis en évidence les facteurs clés influençant le rendement, notamment la date de semis et le stress hydrique de fin de cycle. La seconde phase s'est concentrée sur la modélisation, en suivant une stratégie de "fine-tuning". Un premier modèle, dit "modèle de base", a été pré-entraîné sur le vaste jeu de données simulées, après une optimisation des hyperparamètres par GridSearchCV. Cette étape a permis de développer un modèle prédictif performant d'APSIM, capable de reproduire sa logique avec une précision de R² > 0.9. Par la suite, un modèle final "d'affinage" a été entraîné pour prédire le rendement réel. En utilisant la prédiction du modèle de base comme une "super-caractéristique", ce second modèle apprend à corriger le biais systématique entre la simulation et la réalité du terrain, en se calibrant sur un jeu de données hybride contenant les observations réelles. Après avoir entrainé plusieurs modèles d’apprentissage automatique et d’apprentissage profond (RF, ANN) le modèle XGboost a atteint la meilleure performance, avec un R² de 0.65 et un RMSE de 487 kg/ha, prouvant sa capacité à expliquer une part substantielle de la variabilité du rendement réel. En conclusion, ce travail valide un nouveau pipeline de modélisation hybride fournissant une base solide pour de futures analyses de sensibilité et de risque, et ouvre des perspectives claires pour l'amélioration continue de la prédiction de rendement.
|