Kiyoharu Aizawa 研究室

主宰者：Kiyoharu Aizawa

東京大学

AI 要約（直近 5 年の研究成果）

本研究室は、画像や動画などの視覚情報とテキストを組み合わせた複数の領域の理解と処理に取り組んでいます。特に、日本文化に関連した視覚メディアの自動解析を重視しており、漫画のキャラクターや台詞の関係を学習させたり、日本語の大規模言語モデルを開発したりするなど、文化固有の知識を必要とする課題に力を入れています。また、食事の画像からレシピや栄養情報を検索したり、PDFなどの複数形式の文書から画像とテキストのペアを抽出したりするなど、実生活に役立つアプリケーションにも取り組んでいます。手法としては、深層学習モデルやシーングラフ生成といった機械学習技術を活用しつつ、視覚言語モデルなどの大規模なニューラルネットワークの能力を評価・改善するためのベンチマークデータセットを構築しています。さらに、360度動画を用いた没入的な環境の構築や、顔認識・匿名化技術など、プライバシーと技術のバランスに関する研究も行っています。主要な発見としては、実世界の複雑な状況では単一の視覚情報やテキスト情報だけでは不十分であり、成分や栄養など複数の観点から情報を統合することの重要性が示されています。また、検索や生成といった様々なタスクに対して、例に基づく学習（検索拡張）を組み合わせることで、データが限定的な場合でも質の高い結果が得られることが報告されています。

※ AI（Claude）が、公開されている論文要旨から研究の問い・手法・主要な発見を事実情報として抽出・再構成して自動生成しています。誤りを含む可能性があるため、正確性は研究室公式情報でご確認ください。

外部リンク

研究成果（133 件）

[2026] Realistic Virtual Flood Experience System Using 360° Videos and 3D City Models Constructed from Building Footprints
DOI: https://doi.org/10.1145/3805622.3810434
[2026] MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding
DOI: https://doi.org/10.18653/v1/2026.findings-eacl.284
[2026] Agreement Between an Artificial Intelligence-Based Meal Image Recognition System and the Weighed Dietary Record for Estimating Energy and Nutrient Intakes
DOI: https://doi.org/10.3390/nu18060980
[2026] Realistic Virtual Flood Experience System Using 360° Videos and 3D City Models Constructed from Building Footprints
[2026] Manga109-v2026: Revisiting Manga109 Annotations for Modern Manga Understanding
[2025] Harnessing PDF Data for Improving Japanese Large Multimodal Models
DOI: https://doi.org/10.18653/v1/2025.findings-acl.108
[2025] JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation
DOI: https://doi.org/10.18653/v1/2025.naacl-long.43
[2025] JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation
DOI: https://doi.org/10.18653/v1/2025.naacl-long.43
[2025] Unsolvable Problem Detection: Robust Understanding Evaluation for Large Multimodal Models
DOI: https://doi.org/10.18653/v1/2025.acl-long.326
[2025] Unsolvable Problem Detection: Robust Understanding Evaluation for Large Multimodal Models
DOI: https://doi.org/10.18653/v1/2025.acl-long.326

続きを表示（残り 123 件）

[2025] MangaUB: A Manga Understanding Benchmark for Large Multimodal Models
DOI: https://doi.org/10.1109/mmul.2025.3550451
[2025] A Highly Clean Recipe Dataset with Ingredient States Annotation for State Probing Task
DOI: https://doi.org/10.1145/3746027.3755771
[2025] 360CityGML: Realistic and Interactive Urban Visualization System Integrating CityGML Model and 360$^{\circ }$ Videos
DOI: https://doi.org/10.1109/tvcg.2025.3623130
[2025] Validity of Digital Photographic Images for Dietary Assessment of Participants with Low Frequency of Home-Made Meal Intake
DOI: https://doi.org/10.3177/jnsv.71.349
[2025] Visual attention and cognitive effects of facial anonymization in 360° videos
DOI: https://doi.org/10.3389/frvir.2025.1610627
[2025] Harnessing PDF Data for Improving Japanese Large Multimodal Models
DOI: https://doi.org/10.18653/v1/2025.findings-acl.108
[2025] Redefining Image-to-Recipe Retrieval with Nutritional and Ingredient Similarity
DOI: https://doi.org/10.1109/icme59968.2025.11209424
[2025] Analyzing Viewer Perception of Generative AI-Based Editing in 360° Images Across Display Modalities
DOI: https://doi.org/10.1145/3706599.3719819
[2025] A Benchmark and Evaluation for Real-World Out-of-Distribution Detection Using Vision-Language Models
DOI: https://doi.org/10.1109/icip55913.2025.11084642
[2025] Perface: Metric Learning in Perceptual Facial Similarity for Enhanced Face Anonymization
DOI: https://doi.org/10.1109/icip55913.2025.11084386
[2025] Redefining Image-to-Recipe Retrieval with Nutritional and Ingredient Similarity
DOI: https://doi.org/10.1109/icme59968.2025.11209424
[2025] MangaUB: A Manga Understanding Benchmark for Large Multimodal Models
DOI: https://doi.org/10.1109/mmul.2025.3550451
[2025] GL-MCM: Global and Local Maximum Concept Matching for Zero-Shot Out-of-Distribution Detection
DOI: https://doi.org/10.1007/s11263-025-02356-z
[2025] GL-MCM: Global and Local Maximum Concept Matching for Zero-Shot Out-of-Distribution Detection
DOI: https://doi.org/10.1007/s11263-025-02356-z
[2024] Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation
DOI: https://doi.org/10.1109/cvpr52733.2024.00015
[2024] Manga109Dialog: A Large-Scale Dialogue Dataset for Comics Speaker Detection
DOI: https://doi.org/10.1109/icme57554.2024.10687709
[2024] Measure and Improve Your Food: Ingredient Estimation Based Nutrition Calculator
DOI: https://doi.org/10.1145/3664647.3684997
[2024] Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion
DOI: https://doi.org/10.1145/3664647.3681659
[2024] Open-set domain adaptation with visual-language foundation models
DOI: https://doi.org/10.1016/j.cviu.2024.104230
[2024] Multi-dimensional optimisation of the scanning strategy for the LiteBIRD space mission
DOI: https://doi.org/10.1088/1475-7516/2024/12/036
[2024] Measure and Improve Your Food: Ingredient Estimation Based Nutrition Calculator
DOI: https://doi.org/10.1145/3664647.3684997
[2024] Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion
DOI: https://doi.org/10.1145/3664647.3681659
[2024] Open-set domain adaptation with visual-language foundation models
DOI: https://doi.org/10.1016/j.cviu.2024.104230
[2024] Multi-dimensional optimisation of the scanning strategy for the LiteBIRD space mission
DOI: https://doi.org/10.1088/1475-7516/2024/12/036
[2024] Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation
DOI: https://doi.org/10.1109/cvpr52733.2024.00015
[2024] Cross-Lingual Learning in Multilingual Scene Text Recognition
DOI: https://doi.org/10.1109/icassp48485.2024.10445946
[2024] Cross-Lingual Learning in Multilingual Scene Text Recognition
DOI: https://doi.org/10.1109/icassp48485.2024.10445946
[2024] Content-Adaptive Optimization Framework for Universal Deep Image Compression
DOI: https://doi.org/10.1587/transinf.2023edp7114
[2024] Manga109Dialog: A Large-Scale Dialogue Dataset for Comics Speaker Detection
DOI: https://doi.org/10.1109/icme57554.2024.10687709
[2024] Investigating the Perception of Facial Anonymization Techniques in 360° Videos
DOI: https://doi.org/10.1145/3695254
[2024] Content-Adaptive Optimization Framework for Universal Deep Image Compression
DOI: https://doi.org/10.1587/transinf.2023edp7114
[2023] Statistical characteristics of comic panel viewing times
DOI: https://doi.org/10.1038/s41598-023-47120-w
[2023] Restorable Visible and Infrared Image Fusion
DOI: https://doi.org/10.1109/icip49359.2023.10222638
[2023] Noise-Avoidance Sampling for Annotation Missing Object Detection
DOI: https://doi.org/10.1109/icip49359.2023.10222557
[2023] Quality Enhancement of Conventional Compression with a Learned Side Bitstream
DOI: https://doi.org/10.1587/transinf.2022edl8096
[2023] Field-of-View IoU for Object Detection in 360° Images
DOI: https://doi.org/10.1109/tip.2023.3296013
[2023] Negative Learning to Prevent Undesirable Misclassification
DOI: https://doi.org/10.1587/transinf.2023edl8056
[2023] Open-Vocabulary Segmentation Approach for Transformer-Based Food Nutrient Estimation
DOI: https://doi.org/10.1145/3595916.3626452
[2023] Automatic Dataset Creation from User-generated Recipes for Ingredient-centric Food Image Analysis
DOI: https://doi.org/10.1145/3595916.3626748
[2023] Statistical characteristics of comic panel viewing times
DOI: https://doi.org/10.1038/s41598-023-47120-w
[2023] 360RVW: Fusing Real 360° Videos and Interactive Virtual Worlds
DOI: https://doi.org/10.1145/3581783.3612670
[2023] Negative Learning to Prevent Undesirable Misclassification
DOI: https://doi.org/10.1587/transinf.2023edl8056
[2023] Open-Vocabulary Segmentation Approach for Transformer-Based Food Nutrient Estimation
DOI: https://doi.org/10.1145/3595916.3626452
[2023] Automatic Dataset Creation from User-generated Recipes for Ingredient-centric Food Image Analysis
DOI: https://doi.org/10.1145/3595916.3626748
[2023] 360RVW: Fusing Real 360° Videos and Interactive Virtual Worlds
DOI: https://doi.org/10.1145/3581783.3612670
[2023] Restorable Visible and Infrared Image Fusion
DOI: https://doi.org/10.1109/icip49359.2023.10222638
[2023] Noise-Avoidance Sampling for Annotation Missing Object Detection
DOI: https://doi.org/10.1109/icip49359.2023.10222557
[2023] Quality Enhancement of Conventional Compression with a Learned Side Bitstream
DOI: https://doi.org/10.1587/transinf.2022edl8096
[2023] Field-of-View IoU for Object Detection in 360° Images
DOI: https://doi.org/10.1109/tip.2023.3296013
[2023] Text-to-Image Fashion Retrieval with Fabric Textures
DOI: https://doi.org/10.1145/3591106.3592234
[2023] Self-Labeling Framework for Open-Set Domain Adaptation With Few Labeled Samples
DOI: https://doi.org/10.1109/tmm.2023.3282538
[2023] Text-to-Image Fashion Retrieval with Fabric Textures
DOI: https://doi.org/10.1145/3591106.3592234
[2023] Self-Labeling Framework for Open-Set Domain Adaptation With Few Labeled Samples
DOI: https://doi.org/10.1109/tmm.2023.3282538
[2023] Universal Deep Image Compression via Content-Adaptive Optimization with Adapters
DOI: https://doi.org/10.1109/wacv56688.2023.00256
[2023] Comprehensive Comparisons of Uniform Quantization in Deep Image Compression
DOI: https://doi.org/10.1109/access.2023.3236086
[2023] Rethinking Rotation in Self-Supervised Contrastive Learning: Adaptive Positive or Negative Data Augmentation
DOI: https://doi.org/10.1109/wacv56688.2023.00283
[2023] Universal Deep Image Compression via Content-Adaptive Optimization with Adapters
DOI: https://doi.org/10.1109/wacv56688.2023.00256
[2023] Comprehensive Comparisons of Uniform Quantization in Deep Image Compression
DOI: https://doi.org/10.1109/access.2023.3236086
[2023] Rethinking Rotation in Self-Supervised Contrastive Learning: Adaptive Positive or Negative Data Augmentation
DOI: https://doi.org/10.1109/wacv56688.2023.00283
[2022] Saliency-Based Multiple Region of Interest Detection From a Single 360° Image
DOI: https://doi.org/10.1109/access.2022.3200486
[2022] SVG Vector Font Generation for Chinese Characters with Transformer
DOI: https://doi.org/10.1109/icip46576.2022.9897633
[2022] FoodLog Athl
DOI: https://doi.org/10.1145/3551626.3564978
[2022] SLGAN
DOI: https://doi.org/10.1145/3551626.3564967
[2022] Translation of Illustration Artist Style Using Sailormoonredraw Data
DOI: https://doi.org/10.1109/icip46576.2022.9897787
[2022] SLGAN
DOI: https://doi.org/10.1145/3551626.3564967
[2022] FoodLog Athl
DOI: https://doi.org/10.1145/3551626.3564978
[2022] Self-Labeling Framework for Novel Category Discovery over Domains
DOI: https://doi.org/10.1609/aaai.v36i3.20224
[2022] Fast Nonlinear Image Unblending
DOI: https://doi.org/10.1109/wacv51458.2022.00325
[2022] Evaluating the Stability of Deep Image Quality Assessment with Respect to Image Scaling
DOI: https://doi.org/10.1587/transinf.2022edl8025
[2022] Recipe Recording by Duplicating and Editing Standard Recipe
DOI: https://doi.org/10.1145/3552485.3554942
[2022] Prediction of Mental State from Food Images
DOI: https://doi.org/10.1145/3552485.3554937
[2022] Saliency-Based Multiple Region of Interest Detection From a Single 360° Image
DOI: https://doi.org/10.1109/access.2022.3200486
[2022] Wearable Camera Based Food Logging System
DOI: https://doi.org/10.1145/3551626.3564964
[2022] Wearable Camera Based Food Logging System
DOI: https://doi.org/10.1145/3551626.3564964
[2022] SVG Vector Font Generation for Chinese Characters with Transformer
DOI: https://doi.org/10.1109/icip46576.2022.9897633
[2022] Dual-Erp Representation for Object Detection in 360° Images
DOI: https://doi.org/10.1109/icip46576.2022.9898063
[2022] Recipe-oriented Food Logging for Nutritional Management
DOI: https://doi.org/10.1145/3503161.3549203
[2022] Recipe-oriented Food Logging for Nutritional Management
DOI: https://doi.org/10.1145/3503161.3549203
[2022] Recipe Recording by Duplicating and Editing Standard Recipe
DOI: https://doi.org/10.1145/3552485.3554942
[2022] Evaluating the Stability of Deep Image Quality Assessment with Respect to Image Scaling
DOI: https://doi.org/10.1587/transinf.2022edl8025
[2022] Dual-Erp Representation for Object Detection in 360° Images
DOI: https://doi.org/10.1109/icip46576.2022.9898063
[2022] Self-Labeling Framework for Novel Category Discovery over Domains
DOI: https://doi.org/10.1609/aaai.v36i3.20224
[2022] Fast Nonlinear Image Unblending
DOI: https://doi.org/10.1109/wacv51458.2022.00325
[2021] World Food Atlas Project
DOI: https://doi.org/10.1145/3463947.3469235
[2021] Intersection Prediction from Single 360° Image via Deep Detection of Possible Direction of Travel
DOI: https://doi.org/10.5244/c.35.122
[2021] Intersection Prediction from Single 360° Image via Deep Detection of Possible Direction of Travel
DOI: https://doi.org/10.5244/c.35.122
[2021] Translating Adult's Focus of Attention to Elderly's
DOI: https://doi.org/10.1109/icpr48806.2021.9412870
[2021] Boosting Personalized Food Image Classifier by Sharing Food Records
DOI: https://doi.org/10.1145/3463947.3469238
[2021] Boosting Personalized Food Image Classifier by Sharing Food Records
DOI: https://doi.org/10.1145/3463947.3469238
[2021] UrbanMM'21
DOI: https://doi.org/10.1145/3474085.3478577
[2021] FoodLog_Athl: A multimedia tool for food recording and surveying
DOI: https://doi.org/10.9763/jjsse.25.73
[2021] Noisy Localization Annotation Refinement for Object Detection
DOI: https://doi.org/10.1587/transinf.2021edp7026
[2021] 360° Single Image Super Resolution via Distortion-Aware Network and Distorted Perspective Images
DOI: https://doi.org/10.1109/icip42928.2021.9506233
[2021] Comprehensive Comparisons Of Uniform Quantizers For Deep Image Compression
DOI: https://doi.org/10.1109/icip42928.2021.9506497
[2021] Improving The Quality Of Illustrations: Transforming Amateur Illustrations To A Professional Standard
DOI: https://doi.org/10.1109/icip42928.2021.9506615
[2021] World Food Atlas Project
DOI: https://doi.org/10.1145/3463947.3469235
[2021] What If We Only Use Real Datasets for Scene Text Recognition? Toward Scene Text Recognition With Fewer Labels
DOI: https://doi.org/10.1109/cvpr46437.2021.00313
[2021] NTIRE 2021 Challenge on Perceptual Image Quality Assessment
DOI: https://doi.org/10.1109/cvprw53098.2021.00077
[2021] Estimation of Semantic Impressions from Portraits
DOI: https://doi.org/10.1587/transinf.2020edp7140
[2021] Learned Image Compression with Super-Resolution Residual Modules and DISTS Optimization
DOI: https://doi.org/10.1109/cvprw53098.2021.00215
[2021] An approach for predicting traffic accidents at intersections with 360 degree panorama images
[2021] Design Creation with GAN using features that reflect Shape and Material
[2021] The Aleatoric Uncertainty Estimation Using a Separate Formulation with Virtual Residuals
DOI: https://doi.org/10.1109/icpr48806.2021.9412324
[2021] Few-Shot Font Generation with Deep Metric Learning
DOI: https://doi.org/10.1109/icpr48806.2021.9412254
[2021] What If We Only Use Real Datasets for Scene Text Recognition? Toward Scene Text Recognition With Fewer Labels
DOI: https://doi.org/10.1109/cvpr46437.2021.00313
[2021] NTIRE 2021 Challenge on Perceptual Image Quality Assessment
DOI: https://doi.org/10.1109/cvprw53098.2021.00077
[2021] Learned Image Compression with Super-Resolution Residual Modules and DISTS Optimization
DOI: https://doi.org/10.1109/cvprw53098.2021.00215
[2021] Estimation of Semantic Impressions from Portraits
DOI: https://doi.org/10.1587/transinf.2020edp7140
[2021] An approach for predicting traffic accidents at intersections with 360 degree panorama images
[2021] The Aleatoric Uncertainty Estimation Using a Separate Formulation with Virtual Residuals
DOI: https://doi.org/10.1109/icpr48806.2021.9412324
[2021] Translating Adult's Focus of Attention to Elderly's
DOI: https://doi.org/10.1109/icpr48806.2021.9412870
[2021] Movie Map for Virtual Exploration in a City
DOI: https://doi.org/10.1587/transinf.2021mui0001
[2021] Comic Image Inpainting via Distance Transform
DOI: https://doi.org/10.1145/3478512.3488607
[2021] RecipeLog
DOI: https://doi.org/10.1145/3474085.3478563
[2021] Movie Map for Virtual Exploration in a City
DOI: https://doi.org/10.1587/transinf.2021mui0001
[2021] Comic Image Inpainting via Distance Transform
DOI: https://doi.org/10.1145/3478512.3488607
[2021] RecipeLog
DOI: https://doi.org/10.1145/3474085.3478563
[2021] UrbanMM'21
DOI: https://doi.org/10.1145/3474085.3478577
[2021] FoodLog_Athl: A multimedia tool for food recording and surveying
DOI: https://doi.org/10.9763/jjsse.25.73
[2021] Noisy Localization Annotation Refinement for Object Detection
DOI: https://doi.org/10.1587/transinf.2021edp7026
[2021] 360° Single Image Super Resolution via Distortion-Aware Network and Distorted Perspective Images
DOI: https://doi.org/10.1109/icip42928.2021.9506233
[2021] Comprehensive Comparisons Of Uniform Quantizers For Deep Image Compression
DOI: https://doi.org/10.1109/icip42928.2021.9506497
[2021] Improving The Quality Of Illustrations: Transforming Amateur Illustrations To A Professional Standard
DOI: https://doi.org/10.1109/icip42928.2021.9506615

科研費（0 件）

まだデータがありません（KAKEN 取り込み後に表示）。

所属学会・役職（0 件）

まだデータがありません（学会データ連携後に表示）。

AI 要約（直近 5 年の研究成果）

外部リンク

関連研究室(8 件)

研究成果（133 件）

科研費（0 件）

所属学会・役職（0 件）