ダウンロード数: 246
このアイテムのファイル:
ファイル | 記述 | サイズ | フォーマット | |
---|---|---|---|---|
djohk00838.pdf | Dissertation_全文 | 12.87 MB | Adobe PDF | 見る/開く |
yjohk00838.pdf | Abstract_要旨 | 191.76 kB | Adobe PDF | 見る/開く |
タイトル: | Offline Reinforcement Learning from Imperfect Human Guidance |
その他のタイトル: | 不完全な人間の誘導からのオフライン強化学習 |
著者: | Zhang, Guoxi |
著者名の別形: | 张, 国熙 |
キーワード: | Offline Reinforcement Learning Preference-based Reinforcement Learning Human-in-the-loop Reinforcement Learning |
発行日: | 24-Jul-2023 |
出版者: | Kyoto University |
学位授与大学: | 京都大学 |
学位の種類: | 新制・課程博士 |
取得分野: | 博士(情報学) |
報告番号: | 甲第24856号 |
学位記番号: | 情博第838号 |
学位授与年月日: | 2023-07-24 |
請求記号: | 新制||情||140(附属図書館) |
研究科・専攻: | 京都大学大学院情報学研究科知能情報学専攻 |
論文調査委員: | (主査)教授 鹿島, 久嗣, 教授 河原, 達也, 教授 森本, 淳 |
学位授与の要件: | 学位規則第4条第1項該当 |
著作権等: | 3章は1及び2に基づく。4章は3に基づく。5章は4及び5に基づく。1. G. Zhang and H. Kashima. Batch reinforcement learning from crowds. In Machine Learning and Knowledge Discovery in Databases, pages 38–51. Springer Cham, 2023. https://doi.org/10.1007/978-3-031-26412-2_3 2. G. Zhang, J. Li, and H. Kashima. Improving pairwise rank aggregation via querying for rank difference. In Proceedings of the Ninth IEEE International Conference on Data Science and Advanced Analytics, IEEE, 2022. https://doi.org/10.1109/DSAA54385.2022.10032454 3. G. Zhang and H. Kashima. Learning state importance for preference-based reinforcement learning. Machine Learning, 2023. https://doi.org/10.1007/s10994-022-06295-5 4. G. Zhang and H. Kashima. Behavior estimation from multi-source data for offline reinforcement learning. In Proceedings of the Thirty-Seventh AAAI Conference on Artificial Intelligence. AAAI Press, 2023. 5. G. Zhang, X. Yao, and X. Xiao. On modeling long-term user engagement from stochastic feedback. In Companion Proceedings of the ACM Web Conference 2023. Association for Computing Machinery, 2023. https://doi.org/10.1145/3543873.3587626 |
DOI: | 10.14989/doctor.k24856 |
URI: | http://hdl.handle.net/2433/284789 |
出現コレクション: | 140 博士(情報学) |
このリポジトリに保管されているアイテムはすべて著作権により保護されています。