2026年3月11日~13日にホノルル(ハワイ)にて開催された「2026 The 9th International Conference on Information and Computer Technologies (ICICT 2026)」に本研究室より、上前 諒輔さん(修士2年)、鎌田 理久さん(修士2年)、古田 悠華さん(修士2年)が参加し、研究発表を行いました。



◆ Ryosuke Kamimae, Soichiro Yokoyama, Tomohisa Yamashita, Hidenori Kawamura, Isao Nagata : A Proposal of a Two-Part Lead Sentence Generation Method for Manuals Using Large Language Models
Manual users must quickly determine whether each topic is relevant to their task before reading it. However, single-paragraph lead sentences often face a trade-off between readability and comprehensiveness. This study defines a style that structurally separates lead sentences into main sentences and supplementary information and proposes a method to automatically generate them using large language models (LLMs) through prompt design incorporating explicit structural constraints. Evaluations using manuals for four products and multiple LLMs showed that the main sentences were significantly shorter on average compared to conventional single-paragraph lead sentences, while maintaining the overall comprehensiveness of the lead sentence content. Thus, this approach enables the creation of practical lead sentences that allow users to quickly determine the relevance of information, demonstrating its effectiveness in supporting manual creation.
大規模言語モデルを用いたマニュアル向け二部構成リード文生成手法の提案
マニュアルの利用者は、各トピックが自分のタスクに関連しているかどうかを、読む前に素早く判断しなければならない。しかし、1段落からなる導入文では、読みやすさと網羅性の間でしばしばトレードオフが生じる。本研究では、導入文を「主文」と「補足情報」に構造的に分離するスタイルを定義し、明示的な構造的制約を取り入れたプロンプト設計を通じて、大規模言語モデル(LLM)を用いてそれらを自動生成する手法を提案する。4つの製品のマニュアルと複数のLLMを用いた評価の結果、導入文の内容の全体的な網羅性を維持しつつ、主要文は従来の単一段落の導入文と比較して平均して有意に短いことが示された。したがって、このアプローチにより、ユーザーが情報の関連性を迅速に判断できる実用的な導入文の作成が可能となり、マニュアル作成を支援する有効性が実証された。
◆ Riku Kamada, Soichiro Yokoyama, Tomohisa Yamashita, Hidenori Kawamura: Extraction of Road Surface Condition Changes Using Vision-Language Models for Snow Removal Dispatch Decision Support
Snow removal from roads in snowy areas is essential for winter traffic and infrastructure. Dispatch decisions often rely on the implicit knowledge of personnel, complicating consistent support. While conventional predictive models offer quantitative probabilities such as snowfall forecasts, they fail to capture the qualitative assessment of real-time visual changes performed by operators. This study aims to formalize this assessment using a Vision-Language Model, or VLM, to automatically extract road surface condition changes from time-series images. We propose an extraction module using a VLM with prompt engineering, including techniques like role setting and Few-shot examples, to inject domain knowledge without fine-tuning. It extracts static features like presence or absence and dynamic changes such as Increase, Decrease, or No Change from image pairs. Experiments showed few-shot learning improved static feature consistency. For dynamic changes, the module accurately identified No Change states, reducing false alarms, and successfully detected major events such as the onset of snowfall. However, detecting subtle texture changes, such as disappearing wheel tracks, remained challenging, likely resulting from static recognition limits. This work confirms the feasibility of the VLM for domain-specific change detection, highlighting its strengths in recognizing stable states and major events but also its limitations with subtle changes.
除雪出動決定支援のための視覚言語モデルによる路面状況の特徴変化の抽出
積雪地域における道路除雪は、冬期の交通とインフラを維持するうえで不可欠である。出動判断はしばしば担当者の暗黙知に依存しており、一貫した支援を行うことを難しくしている。従来の予測モデルは降雪予報のような定量的確率を提供できる一方で、運用者が行っているリアルタイムの視覚的変化に対する定性的な評価を捉えることはできない。本研究は、この評価を Vision-Language Model(VLM)を用いて形式化し、時系列画像から道路路面状態の変化を自動抽出することを目的とする。
本研究では、ファインチューニングを行わずに役割設定や Few-shot 例示などのプロンプトエンジニアリングを通じてドメイン知識を注入する、VLM を用いた抽出モジュールを提案する。このモジュールは、画像ペアから有無のような静的特徴と、Increase、Decrease、No Change のような動的変化の両方を抽出する。実験の結果、Few-shot 学習は静的特徴の一貫性を改善することが示された。動的変化については、このモジュールは No Change 状態を高精度に識別し、誤警報を低減するとともに、降雪開始のような主要イベントを適切に検出することに成功した。
一方で、わだちの消失のような微細なテクスチャ変化の検出は依然として困難であり、これは静的認識の限界に起因すると考えられる。本研究は、VLM がドメイン特化型の変化検出に活用可能であることを示し、安定状態や主要イベントの認識における強みを明らかにすると同時に、微細な変化に対する限界も示した。
◆ Yuka Furuta, Soichiro Yokoyama, Tomohisa Yamashita, Hidenori Kawamura : Evaluation of Apparel Feature Reproduction in Text-to-Image Generation for Clothing Design Assistance
In creating custom-made clothing, users often struggle to convey their abstract impressions to designers, leading to miscommunication. This study investigates a system assisting the visualization of clothing designs based on impression words. To evaluate the reproduction performance of text-to-image generation models, we propose the Apparel Visual Similarity Index (AVSI), which assesses 14 items across structural, material, and design factors. Experiments using Stable Image Ultra showed high reproducibility for structural elements, while accuracy decreased for decorative aspects. Furthermore, attribute-enumerative prompts achieved higher reproducibility than attribute-explicit prompts, suggesting that performance depends more on information structure than on quantity. These findings provide insights for generating clothing images and facilitating shared visual understanding between users and designers.
衣類デザイン支援のためのテキストからの画像生成におけるアパレル特徴再現の評価
オーダーメイドの衣類制作において、ユーザーが抽象的なイメージをデザイナーに伝えることは困難であり、意思疎通の齟齬が生じやすい。本研究では、印象語に基づく衣類デザインの可視化支援システムについて調査した。テキストからの画像生成モデルの再現性能を評価するため、構造、素材、デザインの3要素にわたる14項目を評価する「 Apparel Visual Similarity Index(AVSI)」を提案する。Stable Image Ultraを用いた実験では、構造的要素において高い再現性が示された一方、装飾的側面では精度が低下した。また、属性を列挙したプロンプトは、属性を明示的に記述したプロンプトよりも高い再現性を達成しており、生成性能は情報の量よりも構造に依存することが示唆された。これらの知見は、衣類画像の生成、およびユーザーとデザイナー間での視覚的な理解共有を促進する一助となるものである。
研究内容にご興味がありましたら、お気軽にお問い合わせください。
お問い合わせ: http://harmo-lab.jp/contact
学会の様子等は、後日メルマガでもご紹介させていただきます。
メルマガの配信をご希望の方は下記よりご登録ください。
http://harmo-lab.jp/mailmagazine
