Q-学習アルゴリズムは以下のような手順で進行します：

初期状態でエージェントは行動を選択します。行動は通常ε-greedyな方策に従って選択され、これはεの確率でランダムな行動を選択し、1-εの確率で現在の最適な行動（最大のQ値を持つ行動）を選択します✨
エージェントは選択した行動を実行し、環境から報酬と新たな状態を受け取ります☺️
受け取った報酬と新たな状態を用いてQ値を更新します。更新は以下の式に基づきます：Q(s,a) = Q(s,a) + α * (r + γ * max_a' Q(s',a') - Q(s,a)) ここで、αは学習率、γは割引率です⭐️
新たな状態が終状態（ゲームが終わるなど）でなければ、1に戻ります。終状態であれば、エピソードは終了し、新たなエピソードが始まります☀️