Tatsuya Harada 研究室
主宰者:Tatsuya Harada
東京大学
兼任:理化学研究所・RIKEN Center for Advanced Intelligence Project
AI 要約(直近 5 年の研究成果)
本研究室は、画像や動画などの視覚情報、および音声や言語を含むマルチモーダルデータの処理と理解を中心に研究を行っています。具体的には、コンピュータビジョンと自然言語処理の融合領域において、現実世界の多様な条件下でロバストな認識や生成を実現する手法の開発に取り組んでいます。カメラから取得した画像データの効率的な処理、異なるデータセット間での知識転移、複雑な視覚的構造の理解など、実務的な課題解決を指向した研究が特徴です。
視覚認識の側面では、未加工画像データの活用、異なる照明条件への対応、医療画像からの自動抽出など、実世界の課題に対応した手法を提案しています。また、限定的なアノテーション(人手による標付け)で学習できる手法や、複数のデータセットから効果的に学習する領域適応技術の研究も進めています。さらに、大規模言語モデルと視覚モデルの連携、視覚と言語の統合的な理解に関する研究も行われており、日本語を含むマルチリンガル対応のビジョン・言語資源の構築にも注力しています。
加えて、音声から3次元顔アニメーションを生成する技術、音声分離、ユーモアのある画像説明の自動生成など、より広いモダリティに対応した生成モデルの研究も展開しています。これらの研究は、ノイズの混在したデータやラベルが不完全なデータから学習する実践的な状況に対応する方法論の開発にも結びついています。
※ AI(Claude)が、公開されている論文要旨から研究の問い・手法・主要な発見を事実情報として抽出・再構成して自動生成しています。誤りを含む可能性があるため、正確性は研究室公式情報でご確認ください。
外部リンク
関連研究室(8 件)
- 神経科学Jun Yamada 研究室九州大学論文 52 件·共通: 転移, 医学・健康科学, がん, がん進展 +3
- 薬学・薬理学Hiroshi Yamazaki 研究室京都大学論文 25 件·共通: 学習, 生物学, 神経科学, 認知・行動 +3
- 神経科学Kazuyuki Aihara 研究室東京大学論文 158 件·共通: 学習, 生物学, 神経科学, 認知・行動 +2
- 生化学・分子生物学・遺伝学Seiya Imoto 研究室東京大学論文 100 件·共通: 生物学, 医学・健康科学, 学習, 神経科学 +2
- 生化学・分子生物学・遺伝学Hajime Nakamura 研究室慶應義塾大学論文 25 件·共通: 生物学, がん, 医学・健康科学, 転移 +2
- 生化学・分子生物学・遺伝学Takashi Morita 研究室Nagoya University Hospital論文 25 件·共通: 生物学, 学習, 神経科学, 認知・行動 +2
- 生化学・分子生物学・遺伝学Akira Matsuda 研究室北海道大学論文 25 件·共通: 生物学, 学習, 神経科学, 認知・行動 +2
- 神経科学Katsumi Watanabe 研究室早稲田大学論文 25 件·共通: 学習, 生物学, 神経科学, 認知・行動 +2
研究成果(149 件)
- DOI: https://doi.org/10.1109/wacv61042.2026.00595
- DOI: https://doi.org/10.1109/wacv61042.2026.00526
- DOI: https://doi.org/10.1109/tpami.2026.3692923
- DOI: https://doi.org/10.1109/tpami.2026.3692923
- [2026] DEJIMA: A Novel Large-scale Japanese Dataset for Image Captioning and Visual Question AnsweringDOI: https://doi.org/10.63317/45nioi7qjz28
- DOI: https://doi.org/10.1109/icassp55912.2026.11461676
- DOI: https://doi.org/10.1109/wacv61042.2026.00595
- DOI: https://doi.org/10.21437/interspeech.2025-251
- DOI: https://doi.org/10.1109/cvpr52734.2025.02465
- DOI: https://doi.org/10.1109/isbi60581.2025.10980766
続きを表示(残り 139 件)閉じる
- DOI: https://doi.org/10.1109/wacv61041.2025.00636
- DOI: https://doi.org/10.1109/cvpr52734.2025.02465
- [2025] A Theory of Learning Unified Model via Knowledge Integration from Label Space Varying DomainsDOI: https://doi.org/10.1109/cvpr52734.2025.00948
- DOI: https://doi.org/10.1109/isbi60581.2025.10980766
- DOI: https://doi.org/10.1109/wacv61041.2025.00636
- DOI: https://doi.org/10.1109/wacv61041.2025.00860
- [2025] Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based ControlDOI: https://doi.org/10.2312/pg.20251277
- DOI: https://doi.org/10.1145/3757377.3763955
- DOI: https://doi.org/10.1109/wacv61041.2025.00860
- [2025] Few-shot Imitation Learning by Variable-Length Trajectory Retrieval from a Large and Diverse DatasetDOI: https://doi.org/10.1109/humanoids65713.2025.11203120
- DOI: https://doi.org/10.3389/frph.2025.1646340
- DOI: https://doi.org/10.21437/interspeech.2025-251
- DOI: https://doi.org/10.1145/3757377.3763955
- DOI: https://doi.org/10.3389/frph.2025.1646340
- DOI: https://doi.org/10.1016/j.tacc.2024.101357
- DOI: https://doi.org/10.1007/s11263-023-01976-7
- DOI: https://doi.org/10.1109/wacv57701.2024.00195
- DOI: https://doi.org/10.5334/tismir.171
- DOI: https://doi.org/10.1109/wacv57701.2024.00195
- DOI: https://doi.org/10.5334/tismir.171
- DOI: https://doi.org/10.18653/v1/2024.findings-naacl.152
- DOI: https://doi.org/10.2465/jmps.240616
- [2024] Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and Uncurated Unlabeled DataDOI: https://doi.org/10.1109/wacv57701.2024.00524
- DOI: https://doi.org/10.1109/icra57147.2024.10611719
- DOI: https://doi.org/10.1145/3680528.3687643
- DOI: https://doi.org/10.1016/j.neucom.2024.128822
- DOI: https://doi.org/10.1109/humanoids58906.2024.10769872
- DOI: https://doi.org/10.2465/jmps.240616
- DOI: https://doi.org/10.1145/3680528.3687643
- DOI: https://doi.org/10.1016/j.neucom.2024.128822
- DOI: https://doi.org/10.1109/humanoids58906.2024.10769872
- DOI: https://doi.org/10.1016/j.media.2024.103304
- DOI: https://doi.org/10.1109/tmi.2024.3441494
- [2024] Interpretable medical image Visual Question Answering via multi-modal relationship graph learningDOI: https://doi.org/10.1016/j.media.2024.103279
- DOI: https://doi.org/10.18653/v1/2024.findings-naacl.152
- DOI: https://doi.org/10.1109/tpami.2024.3449959
- DOI: https://doi.org/10.1016/j.media.2024.103304
- DOI: https://doi.org/10.1109/tmi.2024.3441494
- [2024] Interpretable medical image Visual Question Answering via multi-modal relationship graph learningDOI: https://doi.org/10.1016/j.media.2024.103279
- DOI: https://doi.org/10.1016/j.artmed.2024.102929
- DOI: https://doi.org/10.1016/j.artmed.2024.102929
- DOI: https://doi.org/10.1609/aaai.v38i2.27908
- DOI: https://doi.org/10.1016/j.tacc.2024.101357
- DOI: https://doi.org/10.1007/s11263-023-01976-7
- DOI: https://doi.org/10.1609/aaai.v38i2.27908
- DOI: https://doi.org/10.1109/wacv56688.2023.00047
- DOI: https://doi.org/10.1016/j.neunet.2023.12.009
- DOI: https://doi.org/10.1145/3610542.3626153
- DOI: https://doi.org/10.1016/j.media.2023.103060
- DOI: https://doi.org/10.1016/j.neunet.2023.12.009
- DOI: https://doi.org/10.1145/3610542.3626153
- DOI: https://doi.org/10.1016/j.tacc.2023.101309
- [2023] Frame-Level Event Representation Learning for Semantic-Level Generation and Editing of Avatar MotionDOI: https://doi.org/10.1145/3577190.3614175
- DOI: https://doi.org/10.1109/iccvw60793.2023.00466
- DOI: https://doi.org/10.1016/j.tacc.2023.101309
- [2023] Frame-Level Event Representation Learning for Semantic-Level Generation and Editing of Avatar MotionDOI: https://doi.org/10.1145/3577190.3614175
- DOI: https://doi.org/10.1109/iccv51070.2023.01104
- DOI: https://doi.org/10.1145/3580305.3599819
- DOI: https://doi.org/10.1109/iccv51070.2023.01104
- DOI: https://doi.org/10.1145/3580305.3599819
- DOI: https://doi.org/10.1109/lra.2023.3296933
- DOI: https://doi.org/10.1609/aaai.v37i12.26712
- DOI: https://doi.org/10.1097/dcr.0000000000002719
- DOI: https://doi.org/10.1109/lra.2023.3296933
- DOI: https://doi.org/10.1097/dcr.0000000000002719
- DOI: https://doi.org/10.1109/cvprw59228.2023.00527
- DOI: https://doi.org/10.1016/j.patcog.2023.109638
- [2023] Domain Adaptive Multiple Instance Learning for Instance-Level Prediction of Pathological ImagesDOI: https://doi.org/10.1109/isbi53787.2023.10230546
- DOI: https://doi.org/10.1109/cvprw59228.2023.00527
- DOI: https://doi.org/10.1016/j.patcog.2023.109638
- [2023] Domain Adaptive Multiple Instance Learning for Instance-Level Prediction of Pathological ImagesDOI: https://doi.org/10.1109/isbi53787.2023.10230546
- DOI: https://doi.org/10.1117/12.2652895
- DOI: https://doi.org/10.3390/biomedicines11030942
- DOI: https://doi.org/10.3390/biomedicines11030942
- DOI: https://doi.org/10.1016/j.csl.2023.101484
- DOI: https://doi.org/10.1109/wacv56688.2023.00047
- DOI: https://doi.org/10.1159/000528439
- DOI: https://doi.org/10.1016/j.csl.2023.101484
- DOI: https://doi.org/10.1109/wacv56688.2023.00438
- DOI: https://doi.org/10.1159/000528439
- DOI: https://doi.org/10.1111/cas.15514
- DOI: https://doi.org/10.1109/scisisis55246.2022.10001907
- DOI: https://doi.org/10.1109/scisisis55246.2022.10001907
- DOI: https://doi.org/10.21437/interspeech.2022-133
- DOI: https://doi.org/10.1007/s10994-022-06196-7
- DOI: https://doi.org/10.1109/icpr56361.2022.9956297
- DOI: https://doi.org/10.1111/cas.15514
- DOI: https://doi.org/10.1609/aaai.v36i6.20665
- DOI: https://doi.org/10.1109/cvpr52688.2022.00547
- DOI: https://doi.org/10.1109/icpr56361.2022.9956719
- DOI: https://doi.org/10.1109/icpr56361.2022.9956297
- DOI: https://doi.org/10.1609/aaai.v36i6.20665
- DOI: https://doi.org/10.1109/cvpr52688.2022.00547
- [2022] Revisiting Domain Generalized Stereo Matching Networks from a Feature Consistency PerspectiveDOI: https://doi.org/10.1109/cvpr52688.2022.01266
- DOI: https://doi.org/10.1109/cvpr52688.2022.00366
- DOI: https://doi.org/10.1109/cvprw56347.2022.00514
- DOI: https://doi.org/10.1145/3487553.3524649
- DOI: https://doi.org/10.1117/12.2612707
- DOI: https://doi.org/10.1109/cvpr52688.2022.00366
- DOI: https://doi.org/10.1109/cvprw56347.2022.00514
- DOI: https://doi.org/10.1145/3487553.3524649
- DOI: https://doi.org/10.1117/12.2612707
- [2022] Spherical Image Generation From a Few Normal-Field-of-View Images by Considering Scene SymmetryDOI: https://doi.org/10.1109/tpami.2022.3215933
- DOI: https://doi.org/10.1007/s10994-022-06196-7
- DOI: https://doi.org/10.21437/interspeech.2022-133
- DOI: https://doi.org/10.2139/ssrn.4304749
- [2022] Spherical Image Generation From a Few Normal-Field-of-View Images by Considering Scene SymmetryDOI: https://doi.org/10.1109/tpami.2022.3215933
- DOI: https://doi.org/10.18653/v1/2022.in2writing-1.6
- DOI: https://doi.org/10.2139/ssrn.4304749
- DOI: https://doi.org/10.1109/isbi48211.2021.9434171
- DOI: https://doi.org/10.1109/lra.2021.3062606
- DOI: https://doi.org/10.1109/wacv48630.2021.00052
- DOI: https://doi.org/10.1016/j.patcog.2020.107807
- DOI: https://doi.org/10.1109/wacv48630.2021.00052
- DOI: https://doi.org/10.1016/j.ipm.2021.102520
- DOI: https://doi.org/10.1109/lra.2021.3062606
- DOI: https://doi.org/10.1016/j.ipm.2021.102520
- DOI: https://doi.org/10.1109/tip.2021.3130530
- [2021] Making Video Recognition Models Robust to Common Corruptions With Supervised Contrastive LearningDOI: https://doi.org/10.1145/3469877.3497692
- DOI: https://doi.org/10.1145/3469877.3495644
- DOI: https://doi.org/10.1145/3469877.3495644
- DOI: https://doi.org/10.1109/iccv48922.2021.00255
- DOI: https://doi.org/10.1109/iccv48922.2021.00571
- DOI: https://doi.org/10.1016/j.patcog.2020.107807
- DOI: https://doi.org/10.1016/j.media.2021.102227
- DOI: https://doi.org/10.1109/cvpr46437.2021.01337
- DOI: https://doi.org/10.1109/iccv48922.2021.00255
- DOI: https://doi.org/10.1109/iccv48922.2021.00571
- DOI: https://doi.org/10.1016/j.media.2021.102227
- DOI: https://doi.org/10.1109/cvpr46437.2021.00379
- DOI: https://doi.org/10.1109/cvpr46437.2021.01337
- [2021] Real-Time Mesh Extraction from Implicit Functions via Direct Reconstruction of Decision BoundaryDOI: https://doi.org/10.1109/icra48506.2021.9560749
- DOI: https://doi.org/10.1609/aaai.v35i2.16242
- DOI: https://doi.org/10.1109/isbi48211.2021.9434171
- [2021] Real-Time Mesh Extraction from Implicit Functions via Direct Reconstruction of Decision BoundaryDOI: https://doi.org/10.1109/icra48506.2021.9560749
- [2021] Making Video Recognition Models Robust to Common Corruptions With Supervised Contrastive LearningDOI: https://doi.org/10.1145/3469877.3497692
- DOI: https://doi.org/10.1609/aaai.v35i2.16242
科研費(0 件)
まだデータがありません(KAKEN 取り込み後に表示)。
所属学会・役職(0 件)
まだデータがありません(学会データ連携後に表示)。