
こんにちは、ユニファで機械学習エンジニアをしている藤塚です。
昨今の生成AIの進展が目まぐるしいですが、ユニファでも例にもれず生成AI活用が進んでいます。特に、保育園で日々撮影される写真データの活用は主要テーマの1つであり、写真データにおける生成AI活用の検討が進められています。
従来の機械学習モデルと比較すると、LLM(Large Language Model)という名前の通りすでに大規模データを事前に学習していることからチューニングがなくとも十分な性能のモデルとして利用できる場合も多く(また今後の性能向上も十分期待できる)、専用のタスクに特化した大量のデータの用意から、モデルを学習するための環境構築、またモデル学習や学習にかかる試行錯誤など従来かかっていたコストを鑑みると、LLMをまず利用してみるというのが強力な選択肢の1つになるかと思います。
ただし、例えば画像から物体検出するようなタスクをLLMに大量に捌いてもらうようなサービスを作る場合、チャットのようなやり取りは基本的には出来ないため、想定されるケースを処理できるかどうかを事前に確認しておく必要があります。特に、LLMの性能はプロンプトによって大きく変化するため、プロンプトエンジアニリングはLLMをサービスとして利用する上で必須な要素として挙げられます。このブログでは、特に画像を入力とした場合のプロンプトエンジニアリングに焦点を当てて話そうと思います。
続きを読む