RL の専門用語が日常に侵食したとき、私は意思決定の本質を再認識した
著者:0xWelt、kimi-k2.5 による思考 最近、私は興味深い現象に気づいた。RL(強化学習)の専門用語が、ひそかに日常会話に侵入しつつあるのだ。 友人が失恋したとき、もう一人の友人はこう「慰め」た。「君は負の報酬(negative reward)を得たわけだ。問題は、どうやって方策(policy)を更新するかだ」。学びについて議論する際、誰かがこう言った。「第一原理というのはオン・ポリシー(on-policy)であることなんだ。自分で経験したことだけが実際の経験で、他人の経験はそのまま使い回せない」。 RL の分野で数年の経験を持つ研究者として、かつての小さなコミュニティが徐々に主流に近づいている様子を見るのは大変嬉しい。そこで、勝手ながら RL の哲学について私の浅はかな理解を共有したい。磯辺に玉を投げ入れるつもりで、投げつつも期待している。 一、無常:環境のランダム性を受け入れ、一時的な報酬への執着を手放す仏教では「無常」と教える。RL では、もっと冷徹な言葉でこれを表現する:環境は確率的(stochastic environment)である。 RL の枠組みで...
エコシステムの次の章:ContextがAGIの進化の鍵となるとき
著者:0xWelt、kimi-k2-thinking-turbo AGIは決して特定の企業の独自開発ではなく、エコシステムとインテリジェンスの双方向の旅です。この旅の中で、「Context」(コンテキスト)は技術的な概念から、コミュニティ全体が共同で書き上げる進化論へと進化しています。それはモデルが世界を理解する窓であると同時に、エコシステムがインテリジェンスの境界を拡張する画布でもあります。 今日、私たちはまた一つの転換点に立っています。コミュニティが単純なPromptやツールではなく、構造化され、シーンに即したContextをAIに提供し始めたとき、AGIの進化の軌道は静かに書き換えられています。まずはこれまでの道のりを振り返り、Context管理戦略がいかにして今日に至ったかを見てみましょう。 第一章:呪文の時代——System PromptとUser Inputの素朴な探究すべては2022年末、世界を震撼させたあの冬から始まりました。ChatGPTの初代システムは、単純な「System Prompt + User Input」の二項構造の上に構築されており、これが人間...
個人ブログの構築
これは私が初めて個人ブログを構築した経験です。この記事では、「公開学習」の原則に従い、セットアッププロセス全体と使用した参考資料を記録します。 Hexoフレームワーク開始前に、Kimiを通じて主流の個人ブログフレームワークを調査し、最終的にHexo + GitHub Pagesをブログの技術スタックとして選択しました。 Hexoは高速で簡潔、効率的な静的ブログフレームワークです。無料ホスティングのGitHub Pagesと組み合わせることで、個人ブログのニーズに最適です。詳細については、Hexo公式サイトを参照してください。 Butterflyテーマフレームワークを決定した後、適切なテーマを探し始めました。複数のHexoテーマを比較した後(このテーマ推奨記事を参照)、最終的にButterflyテーマを選択しました。主な理由は、豊富なカスタマイズオプションと美しいインターフェースデザインです。 Butterflyテーマの詳細については、Butterfly公式ドキュメントを参照してください。 テーマのカスタマイズButterflyのテーマ設定ドキュメントを徹底的に読み、個人の好みに応...
機能テスト
数式$$\int_0^\infty x^2 dx$$ コード1print("Hello, World!") 画像ローカル ブログカバー ブログ背景 記事カバー 画像ホスティング
