Les algorithmes vu précédemment, et beaucoup d’autres, se basent sur l’état de l’agent dans son environnement pour approximer sa valeur. Mais dans des cas plus concrets, connaître l’état complet de l’agent est bien plus compliqué. Par exemple des objets peuvent être cachés par d’autre, cacher derrière l’agent, ou être à des kilomètres de lui. Ou plus simplement un capteur est bruité. Dans ce genre de cas, des aspects importants de l’environnement peuvent ne pas être directement observables, et c’est très peu réaliste et limitant de penser l’inverse.

Choix d’observer et coût associé

Dans notre cas, nous nous intéressons au choix d’observer, pour augmenter la précision d’une certaine composante de l’observation. Ce choix est également associé à un coût, proportionnel avec la précision ou la variable demandée. Dans ce contexte, on peut espérer de l’agent qu’il choisisse d’augmenter sa précision uniquement quand cela est nécessaire et rentable pour lui. Ainsi en optimisant la quantité d’observation précise demandée, l’agent va nécessiter moins de données durant son entraînement et sa phase de test, grand avantage lorsque celle-ci est rare.

Par exemple dans le cadre de l’agroécologie, on peut imaginer la décision de faire une analyse du sol d’un champ, de plutôt demander l’analyse de la quantité de pesticide ou bien de la concentration en minéraux. Les deux possibilités n’ayant pas le même prix et ne menant pas au même genre de décision de la part de l’agriculteur. L’une concerne les engrais et l’autre les pesticides.

Nous adresserons la question de : “est-ce que l’agent peut apprendre à utiliser les demandes d’observation efficacement et continuer à satisfaire la tache d’origine, le tout en collectant moins de données ? ”. Cette question sera étudiée uniquement dans le cas où l’agent choisit le niveau de précision parmi des cas discrets prédéfinis (et non pas le cas où la précision peut être continue).

Motivation

Étudier ce genre de question peut permettre de révéler quelles variables à l’intérieur des observations sont les plus utiles pour la prise de décision. Une autre motivation est d’apporter une solution à la prise de décision lorsque les observations sont coûteuses.

Dans le cadre de la première motivation, pour révéler cette structure de l’information, nous allons associer un coût qui augmente avec la précision de l’observation demandée. De fait seules les observations qui en valent le coup, les plus informatives, seront demandées. Cette décision reposera naturellement sur l’état dans lequel l’agent pense être. Typiquement, dans l’environnement Pendulum d’OpenAi Gym, on peut intuitivement penser que l’agent n’a pas vraiment besoin d’une mesure précise de sa position lorsqu’il est loin de la position désirée (vertical). Ainsi, on peut se demander "Est-il possible de sauter certaines observations et d'obtenir des performances satisfaisantes ? ”, “Quelles composantes de l’observation (comme la position ou la vitesse) sont les plus utiles lorsque le pendule est éloigné (ou proche) de son état cible ? ”, "Comment ces résultats sont-ils affectés par l'écart possible entre l'état réel de l'agent et l'état observé en raison d'observations bruitées ou sautées ?".

https://www.gymlibrary.ml/_images/pendulum.gif

Dans le cadre de la deuxième motivation, on peut retrouver de nombreux problèmes pratiques où un coût est associé avec l’acquisition d’observation. En plus de l’exemple en agroécologie cité précédemment, on peut penser au coût de certains tests médicaux pour diagnostiquer certaines maladies. Ou bien, plus technique avec la réduction du bruit dans les communications sans fils avec un coût lié au droit d’utiliser plus de bande de fréquence, ou lié à l’augmentation de la consommation d’énergie.

Cadre formel

L’agent n’a pas accès à l’état complet de l’environnement dans lequel il se trouve. Il devra donc l’estimer ("belief") à partir des informations qu’il dispose (actions précédentes, éventuelles observations disponibles, "belief state" précédents). La modélisation formelle de ces environnements incomplets se fait grâce au "Partially observable Markov decision process" (POMDP) : une extension des MDP décrite précédemment.

Un exemple classique de POMDP est le problème du tigre. C’est un POMDP simple comportant 2 états, 2 actions, 2 observations.

Vous êtes debout devant les deux portes et devez décider laquelle ouvrir. Un tigre est mis avec équiprobabilité derrière une des deux portes. Derrière l’autre porte se trouve un trésor. Si vous ouvrez la porte avec le tigre, vous allez avoir des problèmes (récompense négative). Mais si vous ouvrez celle avec le trésor, alors vous recevez une récompense positive. Plutôt que d’ouvrir directement une porte, une autre option est d’attendre et d’écouter les bruits du tigre. Mais écouter n’est ni gratuit, ni très fiable, vous pourriez entendre du bruit venant de l’autre porte que celle écoutée et vous tromper.