00001
00002
00003
00004
00005
00006
00007
00008
00009
00010
00011
00012
00013
00014
00015
00016
00017
00018
00019
00020
00021
00022
00023
00024
00025
00026
00027
00028
00029
00030
00031
00032
00033
00034
00035
00036
00037
00038
00039
00040
00041
00042
00043
00044
00045 #ifndef __CLASSICREINFORCE_H
00046 #define __CLASSICREINFORCE_H
00047
00048 #include <selforg/abstractcontroller.h>
00049
00050 #include <assert.h>
00051 #include <cmath>
00052
00053 #include <selforg/matrix.h>
00054 #include <selforg/noisegenerator.h>
00055 #include <selforg/qlearning.h>
00056
00057 typedef struct ClassicReinforceConf {
00058 unsigned short buffersize;
00059 int numContext;
00060 int reinforce_interval;
00061
00062 QLearning* qlearning;
00063 } ClassicReinforceConf;
00064
00065
00066
00067
00068
00069 class ClassicReinforce : public AbstractController {
00070
00071 public:
00072 ClassicReinforce(const ClassicReinforceConf& conf = getDefaultConf());
00073 virtual void init(int sensornumber, int motornumber, RandGen* randGen = 0);
00074
00075 virtual ~ClassicReinforce();
00076
00077
00078 virtual int getSensorNumber() const { return number_sensors; }
00079
00080 virtual int getMotorNumber() const { return number_motors; }
00081
00082
00083
00084 virtual void step(const sensor* , int number_sensors, motor* , int number_motors);
00085
00086
00087 virtual void stepNoLearning(const sensor* , int number_sensors,
00088 motor* , int number_motors);
00089
00090
00091
00092
00093
00094
00095 void setManualControl(bool mControl, int action_ = 0);
00096
00097
00098
00099 virtual paramval getParam(const paramkey& key) const;
00100 virtual bool setParam(const paramkey& key, paramval val);
00101 virtual paramlist getParamList() const;
00102
00103
00104
00105
00106 virtual bool store(FILE* f) const;
00107
00108 virtual bool restore(FILE* f);
00109
00110
00111 virtual std::list<iparamkey> getInternalParamNames() const;
00112 virtual std::list<iparamval> getInternalParams() const;
00113 virtual std::list<ILayer> getStructuralLayers() const;
00114 virtual std::list<IConnection> getStructuralConnections() const;
00115
00116 static ClassicReinforceConf getDefaultConf(){
00117 ClassicReinforceConf c;
00118 c.buffersize=10;
00119 c.numContext=0;
00120 c.reinforce_interval=10;
00121 c.qlearning=0;
00122 return c;
00123 }
00124
00125
00126 protected:
00127 unsigned short number_sensors;
00128 unsigned short number_motors;
00129
00130
00131 unsigned short buffersize;
00132 matrix::Matrix* x_buffer;
00133 matrix::Matrix* y_buffer;
00134 matrix::Matrix* x_context_buffer;
00135
00136 bool manualControl;
00137
00138 int action;
00139 int oldaction;
00140 int state;
00141 double reward;
00142 double oldreward;
00143
00144 ClassicReinforceConf conf;
00145 bool initialised;
00146 int t;
00147 int managementInterval;
00148
00149
00150 virtual int getStateNumber() = 0;
00151
00152
00153 virtual int calcState() = 0;
00154
00155
00156 virtual int getActionNumber() = 0;
00157
00158 virtual matrix::Matrix calcMotor(int action) = 0;
00159
00160
00161 virtual double calcReinforcement() = 0;
00162
00163
00164 void putInBuffer(matrix::Matrix* buffer, const matrix::Matrix& vec, int delay = 0);
00165
00166
00167 virtual void fillSensorBuffer(const sensor* x_, int number_sensors);
00168
00169 virtual void fillMotorBuffer(const motor* y_, int number_motors);
00170
00171
00172 virtual void management();
00173
00174 };
00175
00176 #endif