Kiyoharu Aizawa 研究室
主宰者:Kiyoharu Aizawa
東京大学
AI 要約(直近 5 年の研究成果)
本研究室は、画像や動画などの視覚情報とテキストを組み合わせた複数の領域の理解と処理に取り組んでいます。特に、日本文化に関連した視覚メディアの自動解析を重視しており、漫画のキャラクターや台詞の関係を学習させたり、日本語の大規模言語モデルを開発したりするなど、文化固有の知識を必要とする課題に力を入れています。また、食事の画像からレシピや栄養情報を検索したり、PDFなどの複数形式の文書から画像とテキストのペアを抽出したりするなど、実生活に役立つアプリケーションにも取り組んでいます。
手法としては、深層学習モデルやシーングラフ生成といった機械学習技術を活用しつつ、視覚言語モデルなどの大規模なニューラルネットワークの能力を評価・改善するためのベンチマークデータセットを構築しています。さらに、360度動画を用いた没入的な環境の構築や、顔認識・匿名化技術など、プライバシーと技術のバランスに関する研究も行っています。
主要な発見としては、実世界の複雑な状況では単一の視覚情報やテキスト情報だけでは不十分であり、成分や栄養など複数の観点から情報を統合することの重要性が示されています。また、検索や生成といった様々なタスクに対して、例に基づく学習(検索拡張)を組み合わせることで、データが限定的な場合でも質の高い結果が得られることが報告されています。
※ AI(Claude)が、公開されている論文要旨から研究の問い・手法・主要な発見を事実情報として抽出・再構成して自動生成しています。誤りを含む可能性があるため、正確性は研究室公式情報でご確認ください。
外部リンク
関連研究室(8 件)
- 生化学・分子生物学・遺伝学Takashi Morita 研究室Nagoya University Hospital論文 25 件·共通: 生物学, 学習, 神経科学, 認知・行動 +11
- 薬学・薬理学Hiroshi Yamazaki 研究室京都大学論文 25 件·共通: 学習, 生物学, 神経科学, 認知・行動 +7
- 神経科学Katsumi Watanabe 研究室早稲田大学論文 25 件·共通: 学習, 生物学, 神経科学, 認知・行動 +7
- 農学・生物科学Wei Guo 研究室東京大学論文 77 件·共通: 学習, 生物学, 神経科学, 認知・行動 +6
- 農学・生物科学Toru Fujiwara 研究室東京大学論文 54 件·共通: 生物学, 栄養, 農学, 食品・水産 +6
- 農学・生物科学Masayuki Hirafuji 研究室東京大学論文 10 件·共通: 農学, 生物学, 学習, 神経科学 +6
- 神経科学Kazuyuki Aihara 研究室東京大学論文 158 件·共通: 学習, 生物学, 神経科学, 認知・行動 +5
- 環境科学Fumiki Hosoi 研究室東京大学論文 17 件·共通: 農学, 学習, 生物学, 神経科学 +5
研究成果(132 件)
- DOI: https://doi.org/10.18653/v1/2026.findings-eacl.284
- DOI: https://doi.org/10.3390/nu18060980
- [2025] GL-MCM: Global and Local Maximum Concept Matching for Zero-Shot Out-of-Distribution DetectionDOI: https://doi.org/10.1007/s11263-025-02356-z
- [2025] GL-MCM: Global and Local Maximum Concept Matching for Zero-Shot Out-of-Distribution DetectionDOI: https://doi.org/10.1007/s11263-025-02356-z
- DOI: https://doi.org/10.18653/v1/2025.naacl-long.43
- DOI: https://doi.org/10.18653/v1/2025.naacl-long.43
- DOI: https://doi.org/10.18653/v1/2025.acl-long.326
- DOI: https://doi.org/10.18653/v1/2025.acl-long.326
続きを表示(残り 122 件)閉じる
- DOI: https://doi.org/10.1109/mmul.2025.3550451
- DOI: https://doi.org/10.1145/3746027.3755771
- DOI: https://doi.org/10.1109/tvcg.2025.3623130
- DOI: https://doi.org/10.3177/jnsv.71.349
- DOI: https://doi.org/10.3389/frvir.2025.1610627
- DOI: https://doi.org/10.1109/icme59968.2025.11209424
- [2025] Analyzing Viewer Perception of Generative AI-Based Editing in 360° Images Across Display ModalitiesDOI: https://doi.org/10.1145/3706599.3719819
- [2025] A Benchmark and Evaluation for Real-World Out-of-Distribution Detection Using Vision-Language ModelsDOI: https://doi.org/10.1109/icip55913.2025.11084642
- DOI: https://doi.org/10.1109/icip55913.2025.11084386
- DOI: https://doi.org/10.1109/icme59968.2025.11209424
- DOI: https://doi.org/10.1109/mmul.2025.3550451
- DOI: https://doi.org/10.18653/v1/2025.findings-acl.108
- DOI: https://doi.org/10.18653/v1/2025.findings-acl.108
- DOI: https://doi.org/10.1109/cvpr52733.2024.00015
- DOI: https://doi.org/10.1109/icme57554.2024.10687709
- DOI: https://doi.org/10.1145/3664647.3684997
- [2024] Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal FusionDOI: https://doi.org/10.1145/3664647.3681659
- DOI: https://doi.org/10.1016/j.cviu.2024.104230
- DOI: https://doi.org/10.1088/1475-7516/2024/12/036
- DOI: https://doi.org/10.1109/icassp48485.2024.10445946
- [2024] Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal FusionDOI: https://doi.org/10.1145/3664647.3681659
- DOI: https://doi.org/10.1016/j.cviu.2024.104230
- DOI: https://doi.org/10.1088/1475-7516/2024/12/036
- DOI: https://doi.org/10.1145/3695254
- DOI: https://doi.org/10.1109/cvpr52733.2024.00015
- DOI: https://doi.org/10.1109/icassp48485.2024.10445946
- DOI: https://doi.org/10.1587/transinf.2023edp7114
- DOI: https://doi.org/10.1587/transinf.2023edp7114
- DOI: https://doi.org/10.1109/icme57554.2024.10687709
- DOI: https://doi.org/10.1145/3664647.3684997
- DOI: https://doi.org/10.1038/s41598-023-47120-w
- DOI: https://doi.org/10.1109/icip49359.2023.10222638
- DOI: https://doi.org/10.1109/icip49359.2023.10222557
- DOI: https://doi.org/10.1587/transinf.2022edl8096
- DOI: https://doi.org/10.1109/tip.2023.3296013
- DOI: https://doi.org/10.1587/transinf.2023edl8056
- DOI: https://doi.org/10.1145/3595916.3626452
- [2023] Automatic Dataset Creation from User-generated Recipes for Ingredient-centric Food Image AnalysisDOI: https://doi.org/10.1145/3595916.3626748
- DOI: https://doi.org/10.1038/s41598-023-47120-w
- DOI: https://doi.org/10.1145/3581783.3612670
- DOI: https://doi.org/10.1587/transinf.2023edl8056
- DOI: https://doi.org/10.1145/3595916.3626452
- [2023] Automatic Dataset Creation from User-generated Recipes for Ingredient-centric Food Image AnalysisDOI: https://doi.org/10.1145/3595916.3626748
- DOI: https://doi.org/10.1145/3581783.3612670
- DOI: https://doi.org/10.1109/icip49359.2023.10222638
- DOI: https://doi.org/10.1109/icip49359.2023.10222557
- DOI: https://doi.org/10.1587/transinf.2022edl8096
- DOI: https://doi.org/10.1109/tip.2023.3296013
- DOI: https://doi.org/10.1145/3591106.3592234
- DOI: https://doi.org/10.1109/tmm.2023.3282538
- DOI: https://doi.org/10.1145/3591106.3592234
- DOI: https://doi.org/10.1109/tmm.2023.3282538
- DOI: https://doi.org/10.1109/wacv56688.2023.00256
- DOI: https://doi.org/10.1109/access.2023.3236086
- DOI: https://doi.org/10.1109/wacv56688.2023.00283
- DOI: https://doi.org/10.1109/wacv56688.2023.00256
- DOI: https://doi.org/10.1109/access.2023.3236086
- DOI: https://doi.org/10.1109/wacv56688.2023.00283
- DOI: https://doi.org/10.1109/access.2022.3200486
- DOI: https://doi.org/10.1109/icip46576.2022.9897633
- [2022] FoodLog AthlDOI: https://doi.org/10.1145/3551626.3564978
- [2022] SLGANDOI: https://doi.org/10.1145/3551626.3564967
- [2022] SLGANDOI: https://doi.org/10.1145/3551626.3564967
- [2022] FoodLog AthlDOI: https://doi.org/10.1145/3551626.3564978
- DOI: https://doi.org/10.1145/3551626.3564964
- DOI: https://doi.org/10.1609/aaai.v36i3.20224
- DOI: https://doi.org/10.1109/wacv51458.2022.00325
- DOI: https://doi.org/10.1587/transinf.2022edl8025
- DOI: https://doi.org/10.1145/3552485.3554942
- DOI: https://doi.org/10.1145/3552485.3554937
- DOI: https://doi.org/10.1145/3503161.3549203
- DOI: https://doi.org/10.1109/access.2022.3200486
- DOI: https://doi.org/10.1145/3551626.3564964
- DOI: https://doi.org/10.1109/icip46576.2022.9897633
- DOI: https://doi.org/10.1109/icip46576.2022.9898063
- DOI: https://doi.org/10.1145/3503161.3549203
- DOI: https://doi.org/10.1109/icip46576.2022.9897787
- DOI: https://doi.org/10.1145/3552485.3554942
- DOI: https://doi.org/10.1587/transinf.2022edl8025
- DOI: https://doi.org/10.1609/aaai.v36i3.20224
- DOI: https://doi.org/10.1109/icip46576.2022.9898063
- DOI: https://doi.org/10.1109/wacv51458.2022.00325
- DOI: https://doi.org/10.1109/icip42928.2021.9506497
- DOI: https://doi.org/10.1109/icip42928.2021.9506615
- [2021] Intersection Prediction from Single 360° Image via Deep Detection of Possible Direction of TravelDOI: https://doi.org/10.5244/c.35.122
- [2021] Intersection Prediction from Single 360° Image via Deep Detection of Possible Direction of TravelDOI: https://doi.org/10.5244/c.35.122
- DOI: https://doi.org/10.1109/icpr48806.2021.9412870
- DOI: https://doi.org/10.1145/3463947.3469238
- DOI: https://doi.org/10.1145/3463947.3469238
- [2021] World Food Atlas ProjectDOI: https://doi.org/10.1145/3463947.3469235
- [2021] UrbanMM'21DOI: https://doi.org/10.1145/3474085.3478577
- DOI: https://doi.org/10.9763/jjsse.25.73
- DOI: https://doi.org/10.1587/transinf.2021edp7026
- [2021] 360° Single Image Super Resolution via Distortion-Aware Network and Distorted Perspective ImagesDOI: https://doi.org/10.1109/icip42928.2021.9506233
- DOI: https://doi.org/10.1109/icip42928.2021.9506497
- DOI: https://doi.org/10.1109/icip42928.2021.9506615
- [2021] World Food Atlas ProjectDOI: https://doi.org/10.1145/3463947.3469235
- DOI: https://doi.org/10.1109/cvprw53098.2021.00077
- DOI: https://doi.org/10.1109/cvpr46437.2021.00313
- DOI: https://doi.org/10.1109/cvprw53098.2021.00215
- DOI: https://doi.org/10.1587/transinf.2020edp7140
- DOI: https://doi.org/10.1109/icpr48806.2021.9412324
- DOI: https://doi.org/10.1109/icpr48806.2021.9412254
- DOI: https://doi.org/10.1109/cvpr46437.2021.00313
- DOI: https://doi.org/10.1109/cvprw53098.2021.00077
- DOI: https://doi.org/10.1109/cvprw53098.2021.00215
- DOI: https://doi.org/10.1587/transinf.2020edp7140
- DOI: https://doi.org/10.1109/icpr48806.2021.9412324
- DOI: https://doi.org/10.1109/icpr48806.2021.9412870
- DOI: https://doi.org/10.1587/transinf.2021mui0001
- DOI: https://doi.org/10.1145/3478512.3488607
- [2021] RecipeLogDOI: https://doi.org/10.1145/3474085.3478563
- DOI: https://doi.org/10.1587/transinf.2021mui0001
- DOI: https://doi.org/10.1145/3478512.3488607
- [2021] RecipeLogDOI: https://doi.org/10.1145/3474085.3478563
- [2021] UrbanMM'21DOI: https://doi.org/10.1145/3474085.3478577
- DOI: https://doi.org/10.9763/jjsse.25.73
- DOI: https://doi.org/10.1587/transinf.2021edp7026
- [2021] 360° Single Image Super Resolution via Distortion-Aware Network and Distorted Perspective ImagesDOI: https://doi.org/10.1109/icip42928.2021.9506233
科研費(0 件)
まだデータがありません(KAKEN 取り込み後に表示)。
所属学会・役職(0 件)
まだデータがありません(学会データ連携後に表示)。