<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Reinforcement Learning(RL) | SDLab at NAIST</title><link>https://sdlab.naist.jp/tags/reinforcement-learningrl/</link><atom:link href="https://sdlab.naist.jp/tags/reinforcement-learningrl/index.xml" rel="self" type="application/rss+xml"/><description>Reinforcement Learning(RL)</description><generator>Wowchemy (https://wowchemy.com)</generator><language>ja-jp</language><copyright>© Laboratory for Software Design and Analysis at NAIST 2026</copyright><lastBuildDate>Sun, 11 Jan 2026 10:42:05 +0000</lastBuildDate><image><url>https://sdlab.naist.jp/media/icon_hu865db7ce6c9084c95a3719f4cedc6d58_24826_512x512_fill_lanczos_center_2.png</url><title>Reinforcement Learning(RL)</title><link>https://sdlab.naist.jp/tags/reinforcement-learningrl/</link></image><item><title>第9回 Collaborations to Enable Transnational Cyberinfrastructure Applications（CENTRA 9）におけるポスター発表</title><link>https://sdlab.naist.jp/post/kangcan_centra9/</link><pubDate>Sun, 11 Jan 2026 10:42:05 +0000</pubDate><guid>https://sdlab.naist.jp/post/kangcan_centra9/</guid><description>&lt;p>Ms. Kang Xingyuan と Mr. Papon Choonhaklai は、それぞれの研究について、&lt;a href="https://www.globalcentra.org/centra9/" target="_blank" rel="noopener">CENTRA 2026 in Bangkok, Thailand (CENTRA 9)&lt;/a> のポスターセッションにおいて発表を行いました。&lt;/p>
&lt;p>まず、Ms. Kang Xingyuan は「Exploring the Potential of Reinforcement Learning for Dynamic SDN Controller Placement」と題した研究を発表しました。本研究の詳細は以下の通りです：&lt;/p>
&lt;blockquote>
&lt;p>Kang Xingyuan, Keichi Takahashi, Chawanat Nakasan, Kohei Ichikawa, Hajimu Iida, &amp;ldquo;Exploring the Potential of Reinforcement Learning for Dynamic SDN Controller Placement&amp;rdquo;, CENTRA 2026, January 11–13, 2026.&lt;/p>
&lt;/blockquote>
&lt;p>本研究は，分散型Software-Defined Networking（SDN）におけるコントローラ配置問題（CPP）に対し，適応性と効率性を向上させるための強化学習（RL）ベース手法を提案する。従来の多目的最適化手法は静的環境では有効であるが，動的ネットワーク環境においては柔軟性の不足や計算コストの高さにより適用が困難である。本研究ではCPPを逐次的意思決定問題として定式化し，RLエージェントが環境との相互作用を通じて最適な配置戦略を学習する枠組みを構築する。評価指標として，エンドツーエンド遅延を表すFlow Setup Time（FST）と，負荷分散を評価するVariance of Load Balancing（VOLB）を採用し，これらを報酬関数に統合することで遅延と負荷の同時最適化を実現する。実ネットワークトラフィックデータを用いた実験により，トラフィックが高度に動的かつ不規則であることが確認され，従来手法の限界が示された。提案手法は環境変化に適応し，スケーラビリティの向上，通信オーバーヘッドの削減，およびネットワーク性能の改善に有効であることを示す。
&lt;figure >
&lt;div class="d-flex justify-content-center">
&lt;div class="w-100" >&lt;img alt="" srcset="
/post/kangcan_centra9/mya_huff7262911494692c862384c4bd68cadd_2946595_b1005375a9203506d1af1485cd3bc762.jpg 400w,
/post/kangcan_centra9/mya_huff7262911494692c862384c4bd68cadd_2946595_4d2078d3278f4e6b50b2e5a584c9dfc0.jpg 760w,
/post/kangcan_centra9/mya_huff7262911494692c862384c4bd68cadd_2946595_1200x1200_fit_q90_lanczos.jpg 1200w"
src="https://sdlab.naist.jp/post/kangcan_centra9/mya_huff7262911494692c862384c4bd68cadd_2946595_b1005375a9203506d1af1485cd3bc762.jpg"
width="760"
height="505"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;/figure>
&lt;/p>
&lt;!-- Papon san's session -->
&lt;p>次に、Mr. Papon Choonhaklai は「A proposal of Metric-Driven Scheduling Method for GPU Inference Workloads in Kubernetes Clusters」と題した研究を発表しました。本研究の詳細は以下の通りです：&lt;/p>
&lt;blockquote>
&lt;p>Papon Choonhaklai, Kohei Ichikawa, Kundjanasith Thonglek, Hajimu Iida, &amp;ldquo;A proposal of Metric-Driven Scheduling Method for GPU Inference Workloads in Kubernetes Clusters&amp;rdquo;, CENTRA 2026, January 11–13, 2026.&lt;/p>
&lt;/blockquote>
&lt;p>本研究は，Kubernetesクラスタにおける機械学習推論ワークロードのGPU利用効率を向上させるために，メトリクス駆動型スケジューリング手法を提案する。AIサービスの急速な普及に伴い，従来の粗粒度なリソース割当や静的管理により，GPUが十分に活用されないという課題が存在する。この課題に対し，本研究ではMulti-Process Service（MPS）を活用した細粒度GPU共有を可能とするスケジューリングフレームワークを提案する。GPU使用率やメモリ使用量などのリアルタイムメトリクスを監視ツールから取得し，これらを基に動的にリソースを割り当てることで，効率的なワークロード配置を実現する。本手法はKubernetesネイティブなオペレータとして実装され，既存のクラスタ管理機構と容易に統合可能である。推論ワークロードを用いた評価実験の結果，従来手法と比較してGPU利用率およびスループットが大幅に向上することが確認された。以上より，本手法はクラウドネイティブ環境におけるGPU資源管理のための有効かつスケーラブルなアプローチであることを示す。
&lt;figure >
&lt;div class="d-flex justify-content-center">
&lt;div class="w-100" >&lt;img alt="" srcset="
/post/kangcan_centra9/papon_hue2535492285b0733840e12d7ce9f63cb_3363472_f48a9df2a54babd5dae1dd6603eb5ae7.jpg 400w,
/post/kangcan_centra9/papon_hue2535492285b0733840e12d7ce9f63cb_3363472_b00495a05a57ec9a3bdd15da6cd016b8.jpg 760w,
/post/kangcan_centra9/papon_hue2535492285b0733840e12d7ce9f63cb_3363472_1200x1200_fit_q90_lanczos.jpg 1200w"
src="https://sdlab.naist.jp/post/kangcan_centra9/papon_hue2535492285b0733840e12d7ce9f63cb_3363472_f48a9df2a54babd5dae1dd6603eb5ae7.jpg"
width="760"
height="570"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;/figure>
&lt;/p></description></item><item><title>第41回 Pacific Rim Applications and Grid Middleware Assembly（PRAGMA 41）における研究発表</title><link>https://sdlab.naist.jp/post/kangcan_paragma41/</link><pubDate>Fri, 09 Jan 2026 13:50:58 +0000</pubDate><guid>https://sdlab.naist.jp/post/kangcan_paragma41/</guid><description>&lt;p>Ms. Kang Xingyuan と Mr. Papon Choonhaklai は、それぞれの研究について、&lt;a href="https://www.pragma-grid.net/pragma41/" target="_blank" rel="noopener">PRAGMA 2026 in Bangkok, Thailand（PRAGMA 41）&lt;/a>のTechnical Paperセッションにおいて発表を行いました。&lt;/p>
&lt;p>本会議は、&lt;b>Student Hackathon&lt;/b> と &lt;b>Presentation&lt;/b> の2つのパートで構成されています。&lt;/p>
&lt;p>&lt;b>Student Hackathon&lt;/b>では、参加者はテーマごとにグループに分かれ、1日という限られた時間の中でAI応用をテーマとしたプロジェクトに取り組みました。例えば、私たちのグループは、緊急時における個別最適な避難経路を生成するAIシステムを開発し、GRAMAシミュレータを用いてエージェントの学習過程をモデル化しました。
&lt;figure >
&lt;div class="d-flex justify-content-center">
&lt;div class="w-100" >&lt;img alt="" srcset="
/post/kangcan_paragma41/sh_huf09dd96c8cd63d0d19ad5bb61c59b7d2_5622424_70c4958d18b1cba6e57079dd3a7a3b2b.jpg 400w,
/post/kangcan_paragma41/sh_huf09dd96c8cd63d0d19ad5bb61c59b7d2_5622424_ee697e6cc85efcb446d935ffd17817fe.jpg 760w,
/post/kangcan_paragma41/sh_huf09dd96c8cd63d0d19ad5bb61c59b7d2_5622424_1200x1200_fit_q90_lanczos.jpg 1200w"
src="https://sdlab.naist.jp/post/kangcan_paragma41/sh_huf09dd96c8cd63d0d19ad5bb61c59b7d2_5622424_70c4958d18b1cba6e57079dd3a7a3b2b.jpg"
width="760"
height="507"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;/figure>
&lt;figure >
&lt;div class="d-flex justify-content-center">
&lt;div class="w-100" >&lt;img alt="" srcset="
/post/kangcan_paragma41/mya_sh_hudd25aa251c2dbf53a13cad4668d28d17_2100052_c99b1d7c566ad4e36d2b971d26ecb9ac.jpg 400w,
/post/kangcan_paragma41/mya_sh_hudd25aa251c2dbf53a13cad4668d28d17_2100052_11bf5034af35118f507b16b35f42e315.jpg 760w,
/post/kangcan_paragma41/mya_sh_hudd25aa251c2dbf53a13cad4668d28d17_2100052_1200x1200_fit_q90_lanczos.jpg 1200w"
src="https://sdlab.naist.jp/post/kangcan_paragma41/mya_sh_hudd25aa251c2dbf53a13cad4668d28d17_2100052_c99b1d7c566ad4e36d2b971d26ecb9ac.jpg"
width="760"
height="570"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;/figure>
&lt;figure >
&lt;div class="d-flex justify-content-center">
&lt;div class="w-100" >&lt;img alt="" srcset="
/post/kangcan_paragma41/papon_sh_hu9e310449e5caba214f943767e8dd6e25_2050586_81ea8636445bdaa79b74ab16374a778a.jpg 400w,
/post/kangcan_paragma41/papon_sh_hu9e310449e5caba214f943767e8dd6e25_2050586_393f05edae88e913161473d6b2a935b9.jpg 760w,
/post/kangcan_paragma41/papon_sh_hu9e310449e5caba214f943767e8dd6e25_2050586_1200x1200_fit_q90_lanczos.jpg 1200w"
src="https://sdlab.naist.jp/post/kangcan_paragma41/papon_sh_hu9e310449e5caba214f943767e8dd6e25_2050586_81ea8636445bdaa79b74ab16374a778a.jpg"
width="760"
height="570"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;/figure>
&lt;/p>
&lt;p>Ms. Kang Xingyuan のグループプロジェクトはコミュニティから高い評価を受け、「Giant Award」を受賞しました。
&lt;figure >
&lt;div class="d-flex justify-content-center">
&lt;div class="w-100" >&lt;img alt="" srcset="
/post/kangcan_paragma41/mya_award_hu78dd6c92ba54eba83da6016c89f51c13_8649850_0d30a970bf8f6e90b2827764cd5711aa.jpg 400w,
/post/kangcan_paragma41/mya_award_hu78dd6c92ba54eba83da6016c89f51c13_8649850_51566ee1bbb847bcd5329ec08f61e9af.jpg 760w,
/post/kangcan_paragma41/mya_award_hu78dd6c92ba54eba83da6016c89f51c13_8649850_1200x1200_fit_q90_lanczos.jpg 1200w"
src="https://sdlab.naist.jp/post/kangcan_paragma41/mya_award_hu78dd6c92ba54eba83da6016c89f51c13_8649850_0d30a970bf8f6e90b2827764cd5711aa.jpg"
width="760"
height="507"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;/figure>
&lt;/p>
&lt;p>続いて、&lt;b>Presentation&lt;/b>セッションが行われました。まず、Ms. Kang Xingyuan が「Adaptive Reinforcement Learning for Dynamic Controller Placement in Distributed SDN」と題した研究を発表しました。本研究の詳細は以下の通りです：&lt;/p>
&lt;blockquote>
&lt;p>Kang Xingyuan, Keichi Takahashi, Chawanat Nakasan, Kohei Ichikawa, Hajimu Iida, &amp;ldquo;Adaptive Reinforcement Learning for Dynamic Controller Placement in Distributed SDN&amp;rdquo;, PRAGMA 2026, January 8–11, 2026.&lt;/p>
&lt;/blockquote>
&lt;p>本研究は，分散型Software-Defined Networking（SDN）におけるコントローラ配置問題（CPP）に対し，適応的な強化学習（RL）手法を提案する。従来の多目的最適化手法は，動的環境において柔軟性の不足や計算コストの高さにより適用が困難である。本研究ではCPPを逐次的意思決定問題として定式化し，RLエージェントがネットワークとの相互作用を通じて最適な配置戦略を学習する。評価指標として，遅延を表すFlow Setup Time（FST）と負荷分散を示すVariance of Load Balancing（VOLB）を報酬関数に統合する。実トラフィックデータを用いた評価により，本手法はトラフィック変動やトポロジ変化に適応し，スケーラビリティの向上，通信オーバーヘッドの削減，およびネットワーク性能の改善に有効であることを示した。
&lt;figure class="center" >
&lt;div class="d-flex justify-content-center">
&lt;div class="w-100" >&lt;img alt="PRAGMA presentation poster" srcset="
/post/kangcan_paragma41/mya_huc56d2ee112e5668c162f61a7a08b27d3_4548424_1356390924ce4350c989bfe3a9470b4e.jpg 400w,
/post/kangcan_paragma41/mya_huc56d2ee112e5668c162f61a7a08b27d3_4548424_a7c0398e3236dd65e5c0636bdb446c04.jpg 760w,
/post/kangcan_paragma41/mya_huc56d2ee112e5668c162f61a7a08b27d3_4548424_1200x1200_fit_q90_lanczos.jpg 1200w"
src="https://sdlab.naist.jp/post/kangcan_paragma41/mya_huc56d2ee112e5668c162f61a7a08b27d3_4548424_1356390924ce4350c989bfe3a9470b4e.jpg"
width="400"
height="760"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;/figure>&lt;/p>
&lt;!-- Papon san's session -->
&lt;p>次に、Mr. Papon Choonhaklai が「A Comparative Study of GPU Sharing Techniques for Inference Workloads in Kubernetes Clusters」と題した研究を発表しました。本研究の詳細は以下の通りです：&lt;/p>
&lt;blockquote>
&lt;p>Papon Choonhaklai, Kohei Ichikawa, Kundjanasith Thonglek, Hajimu Iida, &amp;ldquo;A Comparative Study of GPU Sharing Techniques for Inference Workloads in Kubernetes Clusters&amp;rdquo;, PRAGMA 2026, January 8–11, 2026.&lt;/p>
&lt;/blockquote>
&lt;p>本研究は，Kubernetesクラスタにおける機械学習推論ワークロードに対するGPU共有手法を検討し，資源利用効率を向上させるメトリクス駆動型スケジューリング手法を提案する。従来のGPU割当は粗粒度であり，特に推論処理においてはGPU資源の未活用が問題となる。本手法では，NVIDIA Multi-Process Service（MPS）とDCGMおよびPrometheusによるリアルタイムメトリクスを組み合わせ，GPU利用率およびメモリ使用量に基づいて動的にリソースを割り当てる。また，本システムはKubernetesネイティブなオペレータとして実装されている。BERTモデルを用いた推論実験の結果，従来手法と比較してGPU利用率の向上および実行時間の短縮が確認され，本手法がクラウドネイティブ環境におけるスループット向上に有効であることを示した。
&lt;figure class="center" >
&lt;div class="d-flex justify-content-center">
&lt;div class="w-100" >&lt;img alt="PRAGMA presentation poster" srcset="
/post/kangcan_paragma41/papon_hu1e33498217899924678467871fcb6d8b_4351720_ab192927937fecf20299e0e4c1f79fea.jpg 400w,
/post/kangcan_paragma41/papon_hu1e33498217899924678467871fcb6d8b_4351720_9c7437ce6ac7cc932d3ce2d14ce1c770.jpg 760w,
/post/kangcan_paragma41/papon_hu1e33498217899924678467871fcb6d8b_4351720_1200x1200_fit_q90_lanczos.jpg 1200w"
src="https://sdlab.naist.jp/post/kangcan_paragma41/papon_hu1e33498217899924678467871fcb6d8b_4351720_ab192927937fecf20299e0e4c1f79fea.jpg"
width="400"
height="760"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;/figure>&lt;/p>
&lt;p>また、Mr. Papon Choonhaklai の研究はコミュニティから高く評価され、第2位を受賞するとともに記念品が授与されました。
&lt;figure >
&lt;div class="d-flex justify-content-center">
&lt;div class="w-100" >&lt;img alt="" srcset="
/post/kangcan_paragma41/papon_award_hu21d0268520cc61f1a894bc9efa83e15c_4295540_8e0fdbedc6a5edfd62fd6a9f43a3cab3.jpg 400w,
/post/kangcan_paragma41/papon_award_hu21d0268520cc61f1a894bc9efa83e15c_4295540_48a75fa0a78bf76d8ea81d70a7b36593.jpg 760w,
/post/kangcan_paragma41/papon_award_hu21d0268520cc61f1a894bc9efa83e15c_4295540_1200x1200_fit_q90_lanczos.jpg 1200w"
src="https://sdlab.naist.jp/post/kangcan_paragma41/papon_award_hu21d0268520cc61f1a894bc9efa83e15c_4295540_8e0fdbedc6a5edfd62fd6a9f43a3cab3.jpg"
width="760"
height="507"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;/figure>
&lt;/p></description></item></channel></rss>