RESUME AND JOB

STAGE – Ingénieur en apprentissage par renforcement sur jeux à information incomplète (H/F) – 6 mois

Thales

STAGE – Ingénieur en apprentissage par renforcement sur jeux à information incomplète (H/F) – 6 mois

Thales

internshipPosted: Jan 7, 2026

Job Description

JOB DESCRIPTION

Lieu : Palaiseau, France

Construisons ensemble un avenir de confiance

Thales est un leader mondial des hautes technologies spécialisé dans trois secteurs d’activité : Défense & Sécurité, Aéronautique & Spatial, et Cyber & Digital. Il développe des produits et solutions qui contribuent à un monde plus sûr, plus respectueux de l’environnement et plus inclusif. Le Groupe investit près de 4 milliards d’euros par an en Recherche & Développement, notamment dans des domaines clés de l’innovation tels que l’IA, la cybersécurité, le quantique, les technologies du cloud et la 6G. Thales compte près de 81 000 collaborateurs dans 68 pays.

Nos engagements, vos avantages

Notre savoir-faire technologique
Notre attention portée à l’équilibre des collaborateurs
Un environnement inclusif et bienveillant
Un engagement sociétal et environnemental reconnu (Thales Solidarity, indice CAC 40 ESG…)

Votre quotidien

Thales Research&Technology, notre centre de recherche dans les domaines matériels, et CortAIx Labs, notre centre de recherche en IA et digital ont pour mission de proposer des innovations de ruptures, de maintenir et d’accroitre l’avance technologique et d’en assurer la compétitivité pour le groupe.

Résoudre des jeux multi-agents à information incomplète (contrairement aux échecs ou au go) est un défi majeur : chaque agent doit raisonner avec de l’incertitude sur l’état réel du jeu et sur les intentions des adversaires. Les approches de type Counterfactual Regret Minimization (CFR) ont montré leur efficacité lorsque la combinatoire reste limitée. Plus récemment, des travaux de pointe de Google Deepmind en 2023 ont démontré qu’un apprentissage par renforcement et des architectures dédiées peuvent atteindre un niveau expert sur des jeux à très grande combinatoire comme Stratego.

Votre objectif sera de reproduire les principes de ces approches de pointe sur le jeu Zenith (multi-agents, information incomplète, complexité intermédiaire). L’enjeu sera de dépasser les limites des méthodes CFR « pures » en s’appuyant sur des techniques d’apprentissage par renforcement et de recherche mieux adaptées à ce cadre.

Dans ce contexte, vous aurez pour missions :

État de l’art : jeux à information incomplète, CFR/Deep-CFR, self-play, régularisation/équilibres, estimation de croyances (beliefs) et modèles d’adversaires.
Modélisation de Zenith : spécification des règles, états partiellement observables, espaces d’actions, mécanismes de révélation d’information.
Implémentation : environnement d’entraînement, RL basé sur les agents (policy/value), gestion de l’exploration/exploitation sous incertitude.
Évaluation : métriques de performance (win-rate, ELO, exploitabilité), ablations (avec/sans croyances, variations de budget de calcul), robustesse face à des stratégies variées.
Valorisation : analyse de la transposabilité aux cas d’usage Thales (entraînement stratégique/tactique, raisonnement en environnement électromagnétique avec brouillage/anti-brouillage).

Votre profil

STAGE – Ingénieur en apprentissage par renforcement sur jeux à information incomplète (H/F) – 6 mois

Vous avez envie de découvrir le domaine de la recherche ?

Vous avez pour ambition de réaliser votre stage au sein de Thales ?

Etudiant en M2, en Ecole d’ingénieur en IA, Maths appliquées ou informatique, vous avez des connaissances en :

Pratique de Python et d’un framework deep learning (PyTorch)
Vous avez une bonne base en RL, théorie des jeux ou optimisation
Anglais (niveau B2-C1 attendu)

Rigueur, autonomie et goût pour l’expérimentation sont des atouts que l'on vous reconnait ?

Alors ce stage est fait pour vous !

Tous nos stages sont conventionnés et soumis à une gratification dont le montant est déterminé selon votre niveau d’études.

Thales, entreprise Handi-Engagée, reconnait tous les talents. La diversité est notre meilleur atout. Postulez et rejoignez nous !

Locations

Palaiseau, Essonne, Essonne 91767

Salary

Estimated Salary Rangemedium confidence

1,400 - 1,700 EUR / yearly

Source: ai estimated

* This is an estimated range based on market data and may vary based on experience and qualifications.

Skills Required

Pythonintermediate
PyTorchintermediate
Apprentissage par renforcement (RL)intermediate
Théorie des jeuxintermediate
Optimisationintermediate
Jeux à information incomplèteintermediate
CFR/Deep-CFRintermediate
Self-playintermediate
Estimation de croyances (beliefs)intermediate
Modèles d’adversairesintermediate
Rigueurintermediate
Autonomieintermediate
Expérimentationintermediate
Anglais B2-C1intermediate

Required Qualifications

Étudiant en M2 ou École d’ingénieur en IA, Maths appliquées ou informatique (experience)
Pratique de Python et d’un framework deep learning (PyTorch) (experience)
Bonne base en RL, théorie des jeux ou optimisation (experience)
Anglais niveau B2-C1 (experience)

Preferred Qualifications

Rigueur (experience)
Autonomie (experience)
Goût pour l’expérimentation (experience)

Responsibilities

État de l’art sur jeux à information incomplète, CFR/Deep-CFR, self-play, régularisation/équilibres, estimation de croyances et modèles d’adversaires
Modélisation de Zenith : spécification des règles, états partiellement observables, espaces d’actions, mécanismes de révélation d’information
Implémentation : environnement d’entraînement, RL basé sur les agents (policy/value), gestion de l’exploration/exploitation sous incertitude
Évaluation : métriques de performance (win-rate, ELO, exploitabilité), ablations, robustesse face à des stratégies variées
Valorisation : analyse de la transposabilité aux cas d’usage Thales (entraînement stratégique/tactique, raisonnement en environnement électromagnétique)

Benefits

general: Environnement inclusif et bienveillant
general: Engagement sociétal et environnemental reconnu (Thales Solidarity, indice CAC 40 ESG)
general: Attention portée à l’équilibre des collaborateurs
general: Stage conventionné avec gratification selon niveau d’études

Target Your Resume for "STAGE – Ingénieur en apprentissage par renforcement sur jeux à information incomplète (H/F) – 6 mois" , Thales

Get personalized recommendations to optimize your resume specifically for STAGE – Ingénieur en apprentissage par renforcement sur jeux à information incomplète (H/F) – 6 mois. Takes only 15 seconds!

AI-powered keyword optimization

Skills matching & gap analysis

Experience alignment suggestions

Check Your ATS Score for "STAGE – Ingénieur en apprentissage par renforcement sur jeux à information incomplète (H/F) – 6 mois" , Thales

Find out how well your resume matches this job's requirements. Get comprehensive analysis including ATS compatibility, keyword matching, skill gaps, and personalized recommendations.

ATS compatibility check

Keyword optimization analysis

Skill matching & gap identification

Format & readability score

Tags & Categories

DefenseAerospaceCybersecurityDefenseAerospaceTechnology

Answer 10 quick questions to check your fit for STAGE – Ingénieur en apprentissage par renforcement sur jeux à information incomplète (H/F) – 6 mois @ Thales.

10 Questions

~2 Minutes

Instant Score

Related Books and Jobs

No related jobs found at the moment.

Privacy Terms & Conditions About Us Refund Policy Recruiter Login Sitemap

STAGE – Ingénieur en apprentissage par renforcement sur jeux à information incomplète (H/F) – 6 mois

Thales

STAGE – Ingénieur en apprentissage par renforcement sur jeux à information incomplète (H/F) – 6 mois

Thales

internshipPosted: Jan 7, 2026

Job Description

JOB DESCRIPTION

Lieu : Palaiseau, France

Construisons ensemble un avenir de confiance

Nos engagements, vos avantages

Notre savoir-faire technologique
Notre attention portée à l’équilibre des collaborateurs
Un environnement inclusif et bienveillant
Un engagement sociétal et environnemental reconnu (Thales Solidarity, indice CAC 40 ESG…)

Votre quotidien

Dans ce contexte, vous aurez pour missions :

État de l’art : jeux à information incomplète, CFR/Deep-CFR, self-play, régularisation/équilibres, estimation de croyances (beliefs) et modèles d’adversaires.
Modélisation de Zenith : spécification des règles, états partiellement observables, espaces d’actions, mécanismes de révélation d’information.
Implémentation : environnement d’entraînement, RL basé sur les agents (policy/value), gestion de l’exploration/exploitation sous incertitude.
Évaluation : métriques de performance (win-rate, ELO, exploitabilité), ablations (avec/sans croyances, variations de budget de calcul), robustesse face à des stratégies variées.
Valorisation : analyse de la transposabilité aux cas d’usage Thales (entraînement stratégique/tactique, raisonnement en environnement électromagnétique avec brouillage/anti-brouillage).

Votre profil

STAGE – Ingénieur en apprentissage par renforcement sur jeux à information incomplète (H/F) – 6 mois

Vous avez envie de découvrir le domaine de la recherche ?

Vous avez pour ambition de réaliser votre stage au sein de Thales ?

Etudiant en M2, en Ecole d’ingénieur en IA, Maths appliquées ou informatique, vous avez des connaissances en :

Pratique de Python et d’un framework deep learning (PyTorch)
Vous avez une bonne base en RL, théorie des jeux ou optimisation
Anglais (niveau B2-C1 attendu)

Rigueur, autonomie et goût pour l’expérimentation sont des atouts que l'on vous reconnait ?

Alors ce stage est fait pour vous !

Tous nos stages sont conventionnés et soumis à une gratification dont le montant est déterminé selon votre niveau d’études.

Thales, entreprise Handi-Engagée, reconnait tous les talents. La diversité est notre meilleur atout. Postulez et rejoignez nous !

Locations

Palaiseau, Essonne, Essonne 91767

Salary

Estimated Salary Rangemedium confidence

1,400 - 1,700 EUR / yearly

Source: ai estimated

* This is an estimated range based on market data and may vary based on experience and qualifications.

Skills Required

Pythonintermediate
PyTorchintermediate
Apprentissage par renforcement (RL)intermediate
Théorie des jeuxintermediate
Optimisationintermediate
Jeux à information incomplèteintermediate
CFR/Deep-CFRintermediate
Self-playintermediate
Estimation de croyances (beliefs)intermediate
Modèles d’adversairesintermediate
Rigueurintermediate
Autonomieintermediate
Expérimentationintermediate
Anglais B2-C1intermediate

Required Qualifications

Étudiant en M2 ou École d’ingénieur en IA, Maths appliquées ou informatique (experience)
Pratique de Python et d’un framework deep learning (PyTorch) (experience)
Bonne base en RL, théorie des jeux ou optimisation (experience)
Anglais niveau B2-C1 (experience)

Preferred Qualifications

Rigueur (experience)
Autonomie (experience)
Goût pour l’expérimentation (experience)

Responsibilities

État de l’art sur jeux à information incomplète, CFR/Deep-CFR, self-play, régularisation/équilibres, estimation de croyances et modèles d’adversaires
Modélisation de Zenith : spécification des règles, états partiellement observables, espaces d’actions, mécanismes de révélation d’information
Implémentation : environnement d’entraînement, RL basé sur les agents (policy/value), gestion de l’exploration/exploitation sous incertitude
Évaluation : métriques de performance (win-rate, ELO, exploitabilité), ablations, robustesse face à des stratégies variées
Valorisation : analyse de la transposabilité aux cas d’usage Thales (entraînement stratégique/tactique, raisonnement en environnement électromagnétique)

Benefits

general: Environnement inclusif et bienveillant
general: Engagement sociétal et environnemental reconnu (Thales Solidarity, indice CAC 40 ESG)
general: Attention portée à l’équilibre des collaborateurs
general: Stage conventionné avec gratification selon niveau d’études

Target Your Resume for "STAGE – Ingénieur en apprentissage par renforcement sur jeux à information incomplète (H/F) – 6 mois" , Thales

AI-powered keyword optimization

Skills matching & gap analysis

Experience alignment suggestions

Check Your ATS Score for "STAGE – Ingénieur en apprentissage par renforcement sur jeux à information incomplète (H/F) – 6 mois" , Thales

Find out how well your resume matches this job's requirements. Get comprehensive analysis including ATS compatibility, keyword matching, skill gaps, and personalized recommendations.

ATS compatibility check

Keyword optimization analysis

Skill matching & gap identification

Format & readability score

Tags & Categories

DefenseAerospaceCybersecurityDefenseAerospaceTechnology

Answer 10 quick questions to check your fit for STAGE – Ingénieur en apprentissage par renforcement sur jeux à information incomplète (H/F) – 6 mois @ Thales.

10 Questions

~2 Minutes

Instant Score

Related Books and Jobs

No related jobs found at the moment.

Privacy Terms & Conditions About Us Refund Policy Recruiter Login Sitemap