doc/html/multireinforce_8h_source.html

 /***************************************************************************

  *   Copyright (C) 2005-2011 by                                            *

  *    Georg Martius  <georg dot martius at web dot de>                     *

  *    Ralf Der       <ralfder at mis dot mpg dot de>                       *

  *                                                                         *

  *   ANY COMMERCIAL USE FORBIDDEN!                                         *

  *   LICENSE:                                                              *

  *   This work is licensed under the Creative Commons                      *

  *   Attribution-NonCommercial-ShareAlike 2.5 License. To view a copy of   *

  *   this license, visit http://creativecommons.org/licenses/by-nc-sa/2.5/ *

  *   or send a letter to Creative Commons, 543 Howard Street, 5th Floor,   *

  *   San Francisco, California, 94105, USA.                                *

  *                                                                         *

  *   This program is distributed in the hope that it will be useful,       *

  *   but WITHOUT ANY WARRANTY; without even the implied warranty of        *

  *   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.                  *

  *                                                                         *

  ***************************************************************************/

 #ifndef __MULTIREINFORCE_H

 #define __MULTIREINFORCE_H


 #include <selforg/abstractcontroller.h>

 #include <selforg/multilayerffnn.h>


 #include <assert.h>

 #include <math.h>


 #include <selforg/matrix.h>

 #include <selforg/noisegenerator.h>

 #include <selforg/multilayerffnn.h>

 #include <selforg/qlearning.h>


 typedef struct MultiReinforceConf {

   unsigned short buffersize; ///< size of the ringbuffers for sensors, motors,...

   int    numContext;    ///< number of context sensors (ignored)

   std::list<std::string> satFiles; /// filenames for sat networks

   int    numSats;       ///< number of satelite networks (derived from length of files

   bool   useDerive;     ///< input to sat network includes derivatives

   bool   useY;          ///< input to sat network includes y (motor values)

 //   double tauE1;         ///< time horizont for short averaging error

 //   double tauH;          ///< hystersis time (time an state is kept even another one seams right)

 //   double tauI;          ///< maximal waiting time for state change if action was changed

   int reinforce_interval; ///<  time between consecutive reinforcement selections


   QLearning* qlearning;      ///< QLearning instance

   matrix::Matrix* actioncorrel; /// correlation matrix of actions

 } MultiReinforceConf;


 /// Satelite network struct

 typedef struct Sat {

   Sat(MultiLayerFFNN* _net, double _eps);

   MultiLayerFFNN* net;

   double eps;

   double lifetime;

 } Sat;


 /**

  * class for robot controller

  * using several feedforward networks (satelite) and one selforg controller

  */

 class MultiReinforce : public AbstractController {


 public:

   MultiReinforce(const MultiReinforceConf& conf = getDefaultConf());

   virtual void init(int sensornumber, int motornumber, RandGen* randGen = 0);


   virtual ~MultiReinforce();


   /// returns the number of sensors the controller was initialised with or 0 if not initialised

   virtual int getSensorNumber() const { return number_sensors; }

   /// returns the mumber of motors the controller was initialised with or 0 if not initialised

   virtual int getMotorNumber() const  { return number_motors; }


   /// performs one step (includes learning).

   /// Calulates motor commands from sensor inputs.

   virtual void step(const sensor* , int number_sensors, motor* , int number_motors);


   /// performs one step without learning. Calulates motor commands from sensor inputs.

   virtual void stepNoLearning(const sensor* , int number_sensors,

                               motor* , int number_motors);


   // !!!!!!!!!!!!!!!!!!! MISC STUFF !!!!!!!!


   /// restores the sat networks from seperate files

   static std::list<std::string> createFileList(const char* filestem, int n);

   /// restores the sat networks from seperate files

   void restoreSats(const std::list<std::string>& files);

   /// stores the sats into the given files

   void storeSats(const std::list<std::string>& files);


   /** enables/disables manual control, action_ is the sat network number to be used

       if mControl is false, action is ignored

    */

   void setManualControl(bool mControl, int action_ = 0);


   /************** CONFIGURABLE ********************************/

   virtual void notifyOnChange(const paramkey& key);


   /**** STOREABLE ****/

   /** stores the controller values to a given file. */

   virtual bool store(FILE* f) const;

   /** loads the controller values from a given file. */

   virtual bool restore(FILE* f);


   /**** INSPECTABLE ****/

   virtual std::list<iparamkey> getInternalParamNames() const;

   virtual std::list<iparamval> getInternalParams() const;

   virtual std::list<ILayer> getStructuralLayers() const;

   virtual std::list<IConnection> getStructuralConnections() const;


   static MultiReinforceConf getDefaultConf(){

     MultiReinforceConf c;

     c.buffersize=10;

     c.numContext=0;

     c.numSats=0; // has to be changed by user!

     c.useDerive=false;

     c.useY=true;

     c.qlearning=0;

 //     c.tauE1=25;

 //     c.tauH=10;

 //     c.tauI=50;

     c.reinforce_interval=10;

     c.actioncorrel=0;

     c.qlearning=0;

     return c;

   }


 protected:

   unsigned short number_sensors;

   unsigned short number_motors;


   // sensor, sensor-derivative and motor values storage

   unsigned short buffersize;

   matrix::Matrix* x_buffer;

   matrix::Matrix* xp_buffer;

   matrix::Matrix* y_buffer;

   matrix::Matrix* x_context_buffer;


   std::vector <Sat> sats;      ///< satelite networks

   bool manualControl;          ///< True if actions (sats) are selected manually

   matrix::Matrix nomSatOutput; ///< norminal output of satelite networks (x_t,y_t)^T

   matrix::Matrix satInput;     ///< input to satelite networks (x_{t-1}, xp_{t-1}, y_{t-1})^T

   int action;                  ///< index of controlling network

   int newaction;               ///< index of new controlling network

   int oldaction;               ///< index of old controlling network

   int state;                   ///< current state

   double reward;               ///< current reward

   double oldreward;            ///< old reward (nicer for plotting)

   int phase;                   ///< current phase of the controller: 0: action just selected 1:state changed first time 2:state changed second time

   int phasecnt;               ///< counts number of steps in one phase.


   matrix::Matrix satErrors;       ///< actual errors of the sats

   matrix::Matrix satAvgErrors;    ///< averaged errors of the sats

   matrix::Matrix statesbins;      ///< bins with counts for each state


   MultiReinforceConf conf;

   bool initialised;

   int t;

   int managementInterval;       ///< interval between subsequent management calls


   /// returns number of state, to be overwritten

   virtual int getStateNumber() = 0;


   /// returns state, to be overwritten

   virtual int calcState() = 0;


   /// returns the reinforcement (reward), to be overwritten

   virtual double calcReinforcement() = 0;


   // put new value in ring buffer

   void putInBuffer(matrix::Matrix* buffer, const matrix::Matrix& vec, int delay = 0);


   /// puts the sensors in the ringbuffer

   virtual void fillSensorBuffer(const sensor* x_, int number_sensors);

   /// puts the motors in the ringbuffer

   virtual void fillMotorBuffer(const motor* y_, int number_motors);


   /// handles inhibition damping etc.

   virtual void management();


   /** Calculates first and second derivative and returns both in on matrix (above).

       We use simple discrete approximations:

       \f[ f'(x) = (f(x) - f(x-1)) / 2 \f]

       \f[ f''(x) = f(x) - 2f(x-1) + f(x-2) \f]

       where we have to go into the past because we do not have f(x+1). The scaling can be neglegted.

   */

   matrix::Matrix calcDerivatives(const matrix::Matrix* buffer, int delay);


 };


 #endif

MultiReinforce::satInput
matrix::Matrix satInput
input to satelite networks (x_{t-1}, xp_{t-1}, y_{t-1})^T
Definition: multireinforce.h:145

MultiReinforce::managementInterval
int managementInterval
interval between subsequent management calls
Definition: multireinforce.h:162

MultiReinforce::fillSensorBuffer
virtual void fillSensorBuffer(const sensor *x_, int number_sensors)
puts the sensors in the ringbuffer
Definition: multireinforce.cpp:284

matrix::Matrix
Matrix type.
Definition: matrix.h:65

MultiReinforce::getStructuralConnections
virtual std::list< IConnection > getStructuralConnections() const
Specifies which parameter matrix forms a connection between layers (in terms of a neural network) The...
Definition: multireinforce.cpp:480

MultiReinforce::newaction
int newaction
index of new controlling network
Definition: multireinforce.h:147

MultiReinforce::buffersize
unsigned short buffersize
Definition: multireinforce.h:136

MultiReinforceConf::useDerive
bool useDerive
input to sat network includes derivatives
Definition: multireinforce.h:38

MultiReinforce::storeSats
void storeSats(const std::list< std::string > &files)
stores the sats into the given files
Definition: multireinforce.cpp:414

MultiReinforce::MultiReinforce
MultiReinforce(const MultiReinforceConf &conf=getDefaultConf())
Definition: multireinforce.cpp:33

MultiReinforce::phase
int phase
current phase of the controller: 0: action just selected 1:state changed first time 2:state changed s...
Definition: multireinforce.h:152

MultiReinforce::number_sensors
unsigned short number_sensors
Definition: multireinforce.h:132

AbstractController
Abstract class for robot controller (with some basic functionality).
Definition: abstractcontroller.h:46

MultiReinforce::satAvgErrors
matrix::Matrix satAvgErrors
averaged errors of the sats
Definition: multireinforce.h:156

MultiReinforce::y_buffer
matrix::Matrix * y_buffer
Definition: multireinforce.h:139

MultiReinforceConf::buffersize
unsigned short buffersize
size of the ringbuffers for sensors, motors,...
Definition: multireinforce.h:34

MultiReinforce::getDefaultConf
static MultiReinforceConf getDefaultConf()
Definition: multireinforce.h:113

QLearning
implements QLearning
Definition: qlearning.h:33

paramkey
charArray paramkey
Definition: avrtypes.h:36

MultiReinforce
class for robot controller using several feedforward networks (satelite) and one selforg controller ...
Definition: multireinforce.h:61

MultiReinforce::getMotorNumber
virtual int getMotorNumber() const
returns the mumber of motors the controller was initialised with or 0 if not initialised ...
Definition: multireinforce.h:72

MultiReinforce::calcReinforcement
virtual double calcReinforcement()=0
returns the reinforcement (reward), to be overwritten

MultiReinforce::xp_buffer
matrix::Matrix * xp_buffer
Definition: multireinforce.h:138

MultiReinforce::initialised
bool initialised
Definition: multireinforce.h:160

MultiReinforce::getInternalParams
virtual std::list< iparamval > getInternalParams() const
Definition: multireinforce.cpp:458

sensor
double sensor
Definition: types.h:29

_RandGen
random generator with 48bit integer arithmentic
Definition: randomgenerator.h:34

MultiReinforce::t
int t
Definition: multireinforce.h:161

MultiReinforce::manualControl
bool manualControl
True if actions (sats) are selected manually.
Definition: multireinforce.h:143

Sat
Satelite network struct.
Definition: multireinforce.h:50

MultiReinforce::step
virtual void step(const sensor *, int number_sensors, motor *, int number_motors)
performs one step (includes learning).
Definition: multireinforce.cpp:115

MultiReinforce::satErrors
matrix::Matrix satErrors
actual errors of the sats
Definition: multireinforce.h:155

MultiReinforce::store
virtual bool store(FILE *f) const
stores the controller values to a given file.
Definition: multireinforce.cpp:340

MultiReinforce::fillMotorBuffer
virtual void fillMotorBuffer(const motor *y_, int number_motors)
puts the motors in the ringbuffer
Definition: multireinforce.cpp:298

MultiReinforceConf
struct MultiReinforceConf MultiReinforceConf

MultiReinforceConf::qlearning
QLearning * qlearning
QLearning instance.
Definition: multireinforce.h:45

MultiReinforce::stepNoLearning
virtual void stepNoLearning(const sensor *, int number_sensors, motor *, int number_motors)
performs one step without learning. Calulates motor commands from sensor inputs.
Definition: multireinforce.cpp:274

MultiReinforce::getSensorNumber
virtual int getSensorNumber() const
returns the number of sensors the controller was initialised with or 0 if not initialised ...
Definition: multireinforce.h:70

AbstractController::sensor
double sensor
Definition: abstractcontroller.h:48

MultiReinforce::createFileList
static std::list< std::string > createFileList(const char *filestem, int n)
restores the sat networks from seperate files
Definition: multireinforce.cpp:433

MultiReinforce::getStateNumber
virtual int getStateNumber()=0
returns number of state, to be overwritten

MultiReinforce::notifyOnChange
virtual void notifyOnChange(const paramkey &key)
Is called when a parameter was changes via setParam().
Definition: multireinforce.cpp:327

MultiReinforce::management
virtual void management()
handles inhibition damping etc.
Definition: multireinforce.cpp:323

MultiReinforce::oldaction
int oldaction
index of old controlling network
Definition: multireinforce.h:148

Sat::eps
double eps
Definition: multireinforce.h:53

MultiReinforce::putInBuffer
void putInBuffer(matrix::Matrix *buffer, const matrix::Matrix &vec, int delay=0)
Definition: multireinforce.cpp:109

MultiReinforceConf::reinforce_interval
int reinforce_interval
time between consecutive reinforcement selections
Definition: multireinforce.h:43

MultiReinforce::init
virtual void init(int sensornumber, int motornumber, RandGen *randGen=0)
initialisation of the controller with the given sensor/ motornumber Must be called before use...
Definition: multireinforce.cpp:65

MultiReinforce::statesbins
matrix::Matrix statesbins
bins with counts for each state
Definition: multireinforce.h:157

MultiReinforce::nomSatOutput
matrix::Matrix nomSatOutput
norminal output of satelite networks (x_t,y_t)^T
Definition: multireinforce.h:144

MultiReinforce::restore
virtual bool restore(FILE *f)
loads the controller values from a given file.
Definition: multireinforce.cpp:359

MultiReinforce::setManualControl
void setManualControl(bool mControl, int action_=0)
enables/disables manual control, action_ is the sat network number to be used if mControl is false...
Definition: multireinforce.cpp:306

Sat
struct Sat Sat
Satelite network struct.

Sat::lifetime
double lifetime
Definition: multireinforce.h:54

MultiReinforce::getInternalParamNames
virtual std::list< iparamkey > getInternalParamNames() const
The list of the names of all internal parameters given by getInternalParams().
Definition: multireinforce.cpp:443

MultiReinforce::reward
double reward
current reward
Definition: multireinforce.h:150

MultiReinforce::calcState
virtual int calcState()=0
returns state, to be overwritten

MultiReinforce::sats
std::vector< Sat > sats
satelite networks
Definition: multireinforce.h:142

motor
double motor
Definition: types.h:30

MultiReinforce::oldreward
double oldreward
old reward (nicer for plotting)
Definition: multireinforce.h:151

MultiReinforce::x_buffer
matrix::Matrix * x_buffer
Definition: multireinforce.h:137

Sat::Sat
Sat(MultiLayerFFNN *_net, double _eps)
Definition: multireinforce.cpp:26

MultiReinforceConf::numSats
int numSats
filenames for sat networks
Definition: multireinforce.h:37

MultiReinforceConf::numContext
int numContext
number of context sensors (ignored)
Definition: multireinforce.h:35

MultiReinforce::~MultiReinforce
virtual ~MultiReinforce()
Definition: multireinforce.cpp:50

MultiLayerFFNN
multi layer neural network with configurable activation functions
Definition: multilayerffnn.h:35

MultiReinforce::state
int state
current state
Definition: multireinforce.h:149

AbstractController::motor
double motor
Definition: abstractcontroller.h:49

MultiReinforce::action
int action
index of controlling network
Definition: multireinforce.h:146

MultiReinforce::x_context_buffer
matrix::Matrix * x_context_buffer
Definition: multireinforce.h:140

MultiReinforceConf::actioncorrel
matrix::Matrix * actioncorrel
Definition: multireinforce.h:46

MultiReinforceConf::satFiles
std::list< std::string > satFiles
Definition: multireinforce.h:36

MultiReinforce::calcDerivatives
matrix::Matrix calcDerivatives(const matrix::Matrix *buffer, int delay)
Calculates first and second derivative and returns both in on matrix (above).
Definition: multireinforce.cpp:315

Sat::net
MultiLayerFFNN * net
Definition: multireinforce.h:52

MultiReinforce::phasecnt
int phasecnt
counts number of steps in one phase.
Definition: multireinforce.h:153

MultiReinforce::restoreSats
void restoreSats(const std::list< std::string > &files)
restores the sat networks from seperate files
Definition: multireinforce.cpp:394

lpzrobots::c
int c
Definition: hexapod.cpp:56

MultiReinforce::getStructuralLayers
virtual std::list< ILayer > getStructuralLayers() const
Specifies which parameter vector forms a structural layer (in terms of a neural network) The ordering...
Definition: multireinforce.cpp:472

MultiReinforce::number_motors
unsigned short number_motors
Definition: multireinforce.h:133

MultiReinforce::conf
MultiReinforceConf conf
Definition: multireinforce.h:159

MultiReinforceConf
Definition: multireinforce.h:33

MultiReinforceConf::useY
bool useY
input to sat network includes y (motor values)
Definition: multireinforce.h:39