2019-09-27

保育士さんの行動推移モデルで理解するマルコフ連鎖

はじめに

こんにちわ、研究開発部の島田です。今回はマルコフ連鎖についてのお話です。

マルコフ連鎖は様々なところで応用されており、イメージしやすい例だとWeb広告のアトリビューション解析などでしょうか。これは、ユーザーがインターネット上で何かを購入するまでの間にどんなWeb広告に接触してどんな行動を取るのか、こういった行動ログをマルコフモデルに当てはめることでどのWeb広告が価値が高いかがわかるようになります。他にもベイズ統計学や強化学習などの分野でもマルコフモデルの考え方が重要になってきます。

名前だけ聞くとすごく難しそうなこのマルコフ連鎖ですが、考え方自体はシンプルで理解しやすいです。今回はこのマルコフ連鎖について理解し、簡単なシミュレーションも行ってみたいと思います。

マルコフ連鎖とは

マルコフ連鎖についてWiki先生のご説明を見てみます。

マルコフ連鎖（マルコフれんさ、英: Markov chain）とは、確率過程の一種であるマルコフ過程のうち、とりうる状態が離散的（有限または可算）なもの（離散状態マルコフ過程）をいう。また特に、時間が離散的なもの（時刻は添え字で表される）を指すことが多い（他に連続時間マルコフ過程というものもあり、これは時刻が連続である）。マルコフ連鎖は、未来の挙動が現在の値だけで決定され、過去の挙動と無関係である（マルコフ性）。各時刻において起こる状態変化（遷移または推移）に関して、マルコフ連鎖は遷移確率が過去の状態によらず、現在の状態のみによる系列である。特に重要な確率過程として、様々な分野に応用される。

引用元：マルコフ連鎖 - Wikipedia

何言ってるか全くわからんよ・・・Wiki先生。。。

ということで、このブログではまず数学的に小難しいことは無視してイメージだけ掴める様にしてみます。その後一般的な解釈を数式も交えて理解していきたいと思います。

イメージで理解してみるマルコフ連鎖

マルコフ連鎖をイメージで掴むために、今回は保育士さんの行動に当てはめて理解してみたいと思います。

ある保育士さんが「職員室・園庭・保育室」のいずれかに滞在しているとします。実際はもっと色々な場所を行ったり来たりして、更に他の要因も複雑に絡み合ってるので簡単な確率モデルでは表せないと思いますが、ここではマルコフ連鎖を理解することが目的なので簡単なモデル（「保育士さん行動推移モデル」と呼ぶ）で考えます。

例えば、今ある保育士さんが保育室に園児たちと一緒にいた所、他の保育士さんからのコールなどで10分後に職員室に行く確率が50%だったとします。職員室での仕事を済ませ、次の10分後はそのまま職員室に滞在する確率を20%、園庭に行く確率を80%とします。そして次に・・・・といった様に複数の状態を時系列的に行き来すること、これこそがマルコフ連鎖です。

f:id:unifa_tech:20190920093726p:plain:w350

（保育士女の子イラスト出典: かわいいフリー素材集いらすとや）

ここで大事なこととして、マルコフ連鎖は現在の状態だけが次の状態を決めます。先ほどの保育士さんの例で言うと、園庭に行くかどうかはあくまで職員室での状態だけが関係しています。

2019-09-24

Multi-Model Attribute Generator

By Matthew Millar R&D Scientist at ユニファ

Purpose:

This blog is to show the development process of a new research paper that I am working on.
The goal of this string of blog posts is to slowly but surely develop a product that can aid in the data attribute labeling for humans and even other types of image data.
This can be used in several products from people identification, tracking, and statistical data analysis.
Are you ready? Try to keep up!

Attribute Recognition:

What is Attribute Recognition? It is the process of identifying what properties are present in an image. This is normally done on humans but can be done on pretty much anything from cities, cars, and even airplanes. The ability to predict the presence or absence of an item can be very beneficial. Tracking people, a safety check of a vehicle (like a bus or a plane) before departure, visual inspection of an assembled computer, even uses in nuclear power plants. A simple scan of an image can yield some very important warning which could be detected before a disaster can occur.

Data set:

The data-set that I will be using will be the Market-1501 data-set (Zheng et al., 2015) which is commonly used for the Re-identification problems. Why use this data-set? I am using this data-set because of the size and variety of people in the images. The image quality is akin to that of a standard security camera. There are varied backgrounds for each image which will only make the program stronger at generalization by avoiding the use of a cleaned, non-noisy data-set. This data-set will give us many attributes to extract over the next few weeks.

Step 1 Battle of the Sexes:

The first and possibly easiest attribute to check is the gender of a person. This will be easy as it can be a binary classification problem, so not that big of a deal. If your reading this then more likely than not have read a Dog and Cat classification post somewhere when you started out learning CNNs. The model that we will build will be similar so I will not go into great detail of the model itself.

Pre-process Steps:

The first step we need to take is the pre-processing of the images. First, we need to separate the images into the two classes (male, female). These will be our classes for training. Then we need to split the data-set into training and testing sets.
I will use Keras’s image generator to do this as it will not only save time, but I can do all the other pre-processing steps at the same time. This is a list of all possible random image augmentations that will be performed on each image along with some pre-processing steps that will always be performed.

f:id:unifa_tech:20190911111019p:plain — Augmentation Table

Here is the code for the generator for both training and validation data-set. By defining the image generators like this, it saved time splitting up the data-set yourself or having to load it into memory directly and use another python library to do the splitting.

train_datagen = ImageDataGenerator(rescale=1./255,
    shear_range=0.2,
    rotation_range=15,
    zoom_range=0.2,
    horizontal_flip=True,                              
    validation_split=0.2) # set validation split

train_generator = train_datagen.flow_from_directory(
    DATA_PATH,
    target_size=(224, 224),
    batch_size=BATCH_SIZE,
    class_mode='binary',
    subset='training') # set as training data

validation_generator = train_datagen.flow_from_directory(
    DATA_PATH, # same directory as training data
    target_size=(224, 224),
    batch_size=BATCH_SIZE,
    class_mode='binary',
    subset='validation') # set as validation data

Now with that defined we can then use this in training the model. The model will be a simple binary classification model. There is no real need to make it too complex as this is just one of many models that will be used in the product.

def build():
    model = Sequential()
    model.add(Conv2D(32, (3, 3), input_shape=(224, 224, 3)))
    model.add(Activation('relu'))
    model.add(Dropout(0.3))
    model.add(MaxPooling2D(pool_size=(2, 2)))

    model.add(Conv2D(64, (3, 3)))
    model.add(Conv2D(64, (3, 3)))
    model.add(Activation('relu'))
    model.add(Dropout(0.3))
    model.add(MaxPooling2D(pool_size=(2, 2)))
    
    model.add(Conv2D(128, (3, 3)))
    model.add(Conv2D(128, (3, 3)))
    model.add(Activation('relu'))
    model.add(Dropout(0.3))
    model.add(MaxPooling2D(pool_size=(2, 2)))

    model.add(Flatten())
    model.add(Dense(128))
    model.add(Dense(128))
    model.add(Activation('relu'))
    model.add(Dropout(0.5))
  
    model.add(Dense(1))
    model.add(Activation('sigmoid'))
    return model

Seeing that this is a binary problem the use sigmoid is an appropriate activation layer here. The model is not that deep as it is only 2 fully connected layers and one fully connected output layer.

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
conv2d_1 (Conv2D)            (None, 222, 222, 32)      896       
_________________________________________________________________
activation_1 (Activation)    (None, 222, 222, 32)      0         
_________________________________________________________________
dropout_1 (Dropout)          (None, 222, 222, 32)      0         
_________________________________________________________________
max_pooling2d_1 (MaxPooling2 (None, 111, 111, 32)      0         
_________________________________________________________________
conv2d_2 (Conv2D)            (None, 109, 109, 64)      18496     
_________________________________________________________________
conv2d_3 (Conv2D)            (None, 107, 107, 64)      36928     
_________________________________________________________________
activation_2 (Activation)    (None, 107, 107, 64)      0         
_________________________________________________________________
dropout_2 (Dropout)          (None, 107, 107, 64)      0         
_________________________________________________________________
max_pooling2d_2 (MaxPooling2 (None, 53, 53, 64)        0         
_________________________________________________________________
conv2d_4 (Conv2D)            (None, 51, 51, 128)       73856     
_________________________________________________________________
conv2d_5 (Conv2D)            (None, 49, 49, 128)       147584    
_________________________________________________________________
activation_3 (Activation)    (None, 49, 49, 128)       0         
_________________________________________________________________
dropout_3 (Dropout)          (None, 49, 49, 128)       0         
_________________________________________________________________
max_pooling2d_3 (MaxPooling2 (None, 24, 24, 128)       0         
_________________________________________________________________
flatten_1 (Flatten)          (None, 73728)             0         
_________________________________________________________________
dense_1 (Dense)              (None, 128)               9437312   
_________________________________________________________________
dense_2 (Dense)              (None, 128)               16512     
_________________________________________________________________
activation_4 (Activation)    (None, 128)               0         
_________________________________________________________________
dropout_4 (Dropout)          (None, 128)               0         
_________________________________________________________________
dense_3 (Dense)              (None, 1)                 129       
_________________________________________________________________
activation_5 (Activation)    (None, 1)                 0         
=================================================================
Total params: 9,731,713
Trainable params: 9,731,713
Non-trainable params: 0
__________________________________________

Now with the model defined we will turn our attention to training the model.

opt = SGD(lr=LR, momentum=0.9, decay=LR / EPOCHS)
model = build(224, 224, 1)
model.compile(loss="binary_crossentropy", optimizer=opt,metrics=["accuracy"])
filepath= "GenderID-{epoch:02d}-{val_acc:.4f}.ckpt"
checkpoint = ModelCheckpoint(filepath, monitor='val_acc', verbose=1, save_best_only=True, mode='max', save_weights_only=False)
callbacks_list = [checkpoint]

model.fit_generator(
    train_generator,
    steps_per_epoch = train_generator.samples // BATCH_SIZE,
    validation_data = validation_generator, 
    validation_steps = validation_generator.samples // BATCH_SIZE,
    epochs = EPOCHS,
    verbose=1,
    callbacks=callbacks_list)

As you can see the model started to produce pretty good results (~80% validation accuracy) after training.

Epoch 1/10
322/322 [==============================] - 139s 432ms/step - loss: 0.6444 - acc: 0.6356 - val_loss: 0.6126 - val_acc: 0.7211

Epoch 00001: val_acc improved from -inf to 0.72109, saving model to GenderID-01-0.7211.ckpt
Epoch 2/10
322/322 [==============================] - 128s 398ms/step - loss: 0.5833 - acc: 0.6987 - val_loss: 0.5848 - val_acc: 0.7490

Epoch 00002: val_acc improved from 0.72109 to 0.74902, saving model to GenderID-02-0.7490.ckpt
Epoch 3/10
322/322 [==============================] - 128s 399ms/step - loss: 0.5459 - acc: 0.7334 - val_loss: 0.5795 - val_acc: 0.7565

Epoch 00003: val_acc improved from 0.74902 to 0.75647, saving model to GenderID-03-0.7565.ckpt
Epoch 4/10
322/322 [==============================] - 125s 388ms/step - loss: 0.5208 - acc: 0.7462 - val_loss: 0.5736 - val_acc: 0.7137

Epoch 00004: val_acc did not improve from 0.75647
Epoch 5/10
322/322 [==============================] - 125s 390ms/step - loss: 0.4986 - acc: 0.7637 - val_loss: 0.5472 - val_acc: 0.7212

Epoch 00005: val_acc did not improve from 0.75647
Epoch 6/10
322/322 [==============================] - 124s 384ms/step - loss: 0.4912 - acc: 0.7667 - val_loss: 0.5136 - val_acc: 0.7851

Epoch 00006: val_acc improved from 0.75647 to 0.78510, saving model to GenderID-06-0.7851.ckpt
Epoch 7/10
322/322 [==============================] - 124s 384ms/step - loss: 0.4674 - acc: 0.7799 - val_loss: 0.5209 - val_acc: 0.7745

Epoch 00007: val_acc did not improve from 0.78510
Epoch 8/10
322/322 [==============================] - 124s 385ms/step - loss: 0.4485 - acc: 0.7925 - val_loss: 0.4978 - val_acc: 0.7643

Epoch 00008: val_acc did not improve from 0.78510
Epoch 9/10
322/322 [==============================] - 123s 381ms/step - loss: 0.4323 - acc: 0.8022 - val_loss: 0.5000 - val_acc: 0.7737

Epoch 00009: val_acc did not improve from 0.78510
Epoch 10/10
322/322 [==============================] - 124s 386ms/step - loss: 0.4277 - acc: 0.8037 - val_loss: 0.5061 - val_acc: 0.7565

Epoch 00010: val_acc did not improve from 0.78510

Testing

Testing on some images of both male and female the model did as expected ok.
For men, the accuracy was 65.17 % correct.
And for women, the accuracy was 48.36 % correct
So the model is a little more accurate for detecting men than women in the end.
With a total accuracy of 58.36% which is ok a little better than guessing randomly so I will take that as a win.

CONCLUSION:

Now we can see the model is accurate for this complex problem. But how can we improve this model? Some improvements can be done by using a pre-train model to aid in the feature extraction of an image along with better data augmentation techniques.
The model can successfully predict if a person in an image is a man or a woman without the use of faces which is a very difficult task. Why is this important? This will allow for telling if someone sex from a distance even if their face is obscured by clothing or a jacket. So you can use lower resolution security cameras and still with a certain accuracy tell if the person is a man or a woman.

Future Improvement:

From here I will add in layer initializers, deepen the network, add in a pre-trained fine turned model, and improve the data augmentation for the model. This should give a little better results and possibly reaching my goal of 65% which would be a very good model for this particular task.

References:

L. Zheng, L. Shen, L. Tian, S. Wang, J. Wang and Q. Tian, "Scalable Person Re-identification: A Benchmark," 2015 IEEE International Conference on Computer Vision (ICCV), Santiago, 2015, pp. 1116-1124.
doi: 10.1109/ICCV.2015.133

2019-09-17

AWS LambdaでTensorFlow 2.0を使った画像分類

こんにちは、R&Dの宮崎です。普段はTensorFlowを使った画像の認識モデルの開発を行なっています。無事に精度の高いモデルができると、次は実際にサービスとして運用するための基盤を準備しなければいけません。そこで今回は、AWS LambdaでTensorFlow 2.0を動かせるか検証してみましたので、紹介したいと思います。

TensorFlowで推論するための基盤

TensorFlowの運用基盤としてはいくつかの選択肢が考えられます。 AWSではTensorFlow ServingのコンテナをECSやEKSで動かしたり、SageMakerを使ったりするなどです。これらに対し、AWS Lambdaはサーバのプロビジョニングが不要で運用の手間がかからず、使った時間しか課金が発生しないため、推論リクエストが散発的に発生する場合はコストを抑えられるといったメリットがあります。一方で、AWS Lambdaはコールドスタートからの起動時間がかかったり、使えるコンピュータリソースが少ないというデメリットもあります。特に、TensorFlowを扱う上ではその大きなパッケージやモデルを、いかに限られたディスクサイズに収めるかが鍵となります。本記事ではサイズの削減方法を中心に検証していきます。

2019-09-11

fastlaneを利用してdSYMファイルを自動アップロードしてみる

こんにちは。iOSエンジニアのキムです。今回はアプリのクラッシュに関する内容になります。

アプリが良い評価をされるためには動作の安定性が必要不可欠です。コンテンツの内容やデザインなども大事ですが、アプリの動作が不安定でよくクラッシュしたりすると、そのアプリは使われなくなリます。そのため、エンジニアたちはアプリの安定性をモニタリングし、安定性の向上のために絶えずに取り組みを行っています。

アプリの品質を低下させるクラッシュですが、クラッシュログを生のデータのままで解析するのはほぼ不可能です。そのため、dSYM（デバッグシンボル）ファイルというのが必要になります。dSYMファイルを用いてシンボル化（Symbolicate）することで、解析可能なスタックトレースへと復元することができるようになります。

クラッシュレポートツール（Firebase Crashlyticsなど）を使うと、dSYMファイルを自動的にアップロードしてくれるとかクラッシュしたデバイスの情報などの追跡もできるので、クラッシュの原因を調査する時間も節約できます。

背景

以前Firebase Crashlyticsでクラッシュログを調べる際に「Missing dSYM」というアラートが表示されて、クラッシュログが正常に表示されないことがありました。

調べると、アプリのBitcode設定を有効にしていたのが原因でした。アプリのBitcode設定を有効にしてAppleに送信すると、Appleによって特定のデバイスとアーキテクチャ向けに再コンパイルされ、dSYMファイルも新しく生成されるので、それをAppleから手動でダウンロードして、Firebase Crashlyticsにアップロードする必要がありました。

しかし、新しく生成されたdSYMファイルは数十個もありましたし、それを毎回アップロードするのはなかなか手間がかかる作業でした。

今回はそのdSYMファイルをfastlaneを利用して自動でアップロードする方法について紹介したいと思います。

＊ちなみに、dSYMファイルはXcodeのOrganizerのDownload Debug Symbolsからもダウンロードできます。

準備

Firebase Crashlyticsやfastlaneについてある程度の知識があることを前提で話します。

処理内容

fastlaneでdSYMアップロード用のlaneを作ってみます。

lane : refresh_dsyms do |options|
    # バージョンの指定がなければ、最新バージョンのdSYMファイルをダウンロードする
    version = options[:version] || 'latest'
    download_dsyms(
      version: version
    )
    # dSYMファイルをcrashlyticsにアップロードする
    upload_symbols_to_crashlytics
    # ローカルのdSYMファイルを削除する
    clean_build_artifacts
end

利用方法

fastlane refresh_dsyms version:1.0.0

結果

上記のlaneを実行すると、dSYMファイルをAppleからダウンロードして、crashlyticsにアップロードしてくれます。

f:id:unifa_tech:20190909093639p:plain

fastlaneのdocumentを見るともっと詳しい使い方が書いてあります。

最後に

これでクラッシュログも正常に表示されるようになりました。これからはクラッシュログを解析して、どのクラッシュから解決するかの優先順位を決めて、一つずつ再現させながら対応するだけですね。

2019-09-06

コンテキストスイッチをいかにして減らしたか？

スクラム開発プロセス Scrum

スクラムマスターの渡部です。

以前、とあるイベントに参加した際、「スクラムをやり始めたチーム向けの、ネタ帳的な情報ってあまり見かけないよね」という話をしていたのですが、それならばと思い、私たちのチームで実際にやったことの一部を紹介していこうと思います。

今回のテーマは、コンテキストスイッチのコスト削減です。

※今になって思えば、「スクラム現場ガイド」がまさにネタ帳的な内容でしたので、興味がある方はぜひお手に取っていただければと思います。

book.mynavi.jp

本記事で解説する内容

コンテキストスイッチとは？
コンテキストスイッチを体感してみよう！
コンテキストスイッチを減らすためにやったこと3つ

想定読者

（スクラムを導入しているか否かに関わらず）個人・チームのパフォーマンスを上げたいと考えている方

コンテキストスイッチとは？

コンテキストスイッチとは一言でいうと、作業Aから、異なる文脈の作業Bに思考を切り替えることです。

ただ作業を切り替えているだけのようにも思えますが、作業Bを終えて作業Aに戻ったとき、「作業Aがどこまで進んでいたのか？」、「この後何をするべきだったのか？」を思い出して復帰する工程が必要になり、ムダが発生してしまっているのです。

思い出すことができればまだ良いのですが、酷い場合は全く思い出すことができず、「昔話したアレ…結局何をすれば良かったんだっけ…？」と確認するハメに…

皆さんの中にも、「たくさんミーティングが入っている日は、他の作業が全然進まないなぁ…」というシチュエーションに身に覚えがある方はいませんか？

恐らくその時、「ミーティング」と「作業」の間でコンテキストスイッチが発生することにより、「元々の作業を思い出して復帰する」ことに思考のリソースを割いてしまっている可能性があります。

コンテキストスイッチを体感してみよう！

そうは言ったものの、「簡単な作業なら、少しくらい平気でしょ！」という気持ちも分かるので、簡単なワークでコストを体感してみたいと思います。

私がチームで実施しているのは下記の方法です。5分あれば体験できるので、良ければ是非試してみてください。

準備するもの

紙
ペン
ストップウォッチ（スマホでOK）

概要

アルファベット10文字「a〜j」、ひらがな10文字「あ〜こ」、数字10文字「0〜9」を2通りの順番で書いていただき、書き終えるまでの時間を計測・比較します。

「アルファベットを書く作業」、「ひらがなを書く作業」、「数字を書く作業」の、3種類の作業が存在するイメージですね。

手順

まずは、3種類の文字を1文字ずつ順番に書きます。（a → あ → 1 → b → い → 2…）
次に、1つの文字種をまとめて書いて、次の文字種に移ります。（a〜j → あ〜こ → 0 → 9）
1,2で書き終えるまでの時間を比較します。

いかがでしたでしょうか。

「文字を書く」という作業は日常で慣れているはずですし、特に難しい文字を書いている訳でも無いはずですが、書きにくさを感じませんでしたか？

簡単に思える作業ですらそうなのですから、当然、コードを書いたり、テストをしたり、その他開発以外のあらゆる作業も影響を受けます。

ですので、個人やチームのパフォーマンスを向上させるためには、できる限りコンテキストスイッチを減らし、同じコンテキストの作業を継続できる状況を作ることが大切になります。

次のセクションでは、私たちのチームがコンテキストスイッチ減らすために実際にやってみたことを、エンジニアからのラフな感想付きでいくつか紹介していきます。

やったこと①：運用系作業（差し込み作業）のコントロール

困っていたこと

運用系作業（差し込み作業）と、それに関連する確認相談が頻繁に発生していた
スプリント内の全工数の内、3〜6割ほどが運用系作業で占められていた

何をしたのか

運用系作業を専門で行うスタッフをアサインして、他スタッフが確認・対応する時間を減らした
複数の作業依頼が発生することもあったので、運用系作業のためだけのカンバンを作成し、着手すべき優先順位順に1列で並べるルールにした

どうだったか

エンジニア曰く「これは本当に良かった、助かった」とのこと。

差し込み（コンテキストスイッチ）を減らしたことと、単純に運用系作業に対応できる量にも制限が出来たことで、もともとは3〜6割程度を占めていた運用系作業の割合が、多くて1割程度に落ち着きました。

この施策は、チームで実施してきたカイゼンの中でも特にインパクトが大きいものでした。が、その分、チームに適したフローを整えるのに頭を悩ませましたし、影響範囲も大きいので、沢山の方にご理解ご協力をいただきました。

プロジェクトとチームの状況をご理解いただき、ご協力いただいた関係者の皆様、本当にありがとうございます。特に、フロー検討時に相談に乗っていただいたY岸さん、K林さん、グループ全体にスムーズに展開していただいたT中さん、そして何より、一手に引き受けてくださったSさん、本当にありがとうございます。

実施に際してチームごとに課題はあるかと思いますが、同じような問題に悩まれているチームは多いかと思いますので、是非試してみていただければと思います。

因みに、スクラム現場ガイド 14章では「専任チーム」として同様の事例が紹介されています。

やったこと②：プロダクトオーナーの席移動

困っていたこと

（詳しい事情は皆様のご想像にお任せしますが）不明なことが非常に多い中で探りながら開発を進める必要があり、都度の確認・相談のために作業の手が止まっていた

何をしたのか

プロダクトオーナーにコンテキストスイッチによるコストを説明・理解いただき、チームの近くに移動してもらい、気軽に確認相談できる環境を整えた

どうだったか

本当にややこしいものは、口頭のみで済ませてしまうと後で困るので、結局テキストに残すことになるのですが、「簡単な相談や、作ってその場で方向性のジャッジができることは良かった」と、エンジニアからはまずまずの評価でした。

因みに、プロダクトオーナーが近くにいることで過干渉のリスクがあると言われていましたが、私たちのチームではそのような問題はありませんでした。

やったこと③：MTGの調整

困っていたこと

MTGがたくさんある
MTGの開催時間が点在していて、長時間集中できる時間が無い

何をしたのか

参加マストなMTG以外は、欠席 or 任意参加にしてもらえるよう、関係者へ交渉した
参加マストなMTGで、時間調整可能なものは、朝に移動して午後はできる限り空けた

どうだったか

エンジニア曰く「MTGまであと30分くらいだから簡単な作業をしよう…とムダに考えなくて良くなったので進めやすくなった」とのこと。

ちなみに

コンテキストスイッチによる作業効率の低下は、作業単位のみならず、プロジェクト単位でも発生することがわかっています。

ざっくりとした例えですが、次のようなプロダクトA,B,Cのための3つのプロジェクトがあったとします。（必要な作業 A1,A2,A3が達成できれば、プロダクトAが出来上がるイメージです）

f:id:unifa_tech:20190903175619p:plain

まずは、全てを優先、つまり、チームが複数のプロジェクトを掛け持つ場合のスケジュールを見てみましょう。

作業間でコンテキストスイッチが発生するため、作業間に余白を入れて、下記のようなスケジュールになります。

f:id:unifa_tech:20190903170856p:plain

次に、1つずつ順番に対応する場合のスケジュールを見てみましょう。

コンテキストスイッチが発生するのは、A→Bの切り替え時、B→Cの切り替え時のみとなるので、そこに余白を入れて、下記のスケジュールとなります。

f:id:unifa_tech:20190903174725p:plain

可能な限りコンテキストスイッチを抑え、1つずつ順番に対応した場合の方がムダ（余白）が無いため、トータルで早く完了しそうだということがわかります。

（コンテキストスイッチの話とは少し脱線しますが、各プロダクトA,B,Cが早くリリースでき、多くの価値を提供できる利点もあります）

プロジェクトの同時並行に関してはやむを得ない場合もあると思われますので、可能な場合には考慮いただくとよろしいかと思います。

補足

下記ページにある表では、同時並行のプロジェクトが増えるごとに、コンテキストスイッチによってロスが生じ、1つ1つのプロジェクトに使える時間の割合が減っていくことを説明していますので、良ければ見てみてください。

www.scruminc.com

掛け持ちが3つ以上になると、1つ1つのプロジェクトに費やせる割合よりも、コンテキストスイッチによるコスト（ムダ）の割合の方が多くなるのは感慨深いです。

さいごに

いかがでしたでしょうか？

チームのパフォーマンスをできるだけ高めたいと考えている方にとってのヒントとなれば幸いです。

既に何らかの施策を実施されている方は「うちのチームはこんなことをやってみたよ！」とコメントいただけると涙を流して喜びます。

今回は、「コンテキストスイッチのコスト削減」にフォーカスしてお話しましたが、いずれ別のテーマでもネタ帳的な内容で記事を書ければと思います。

このように、私たちのチーム・会社では、効率的に目的を達成するために全員が一丸となって日々カイゼンと繰り返しています。

そんな働き方に少しでも興味を持っていただけるようでしたら、是非下記も覗いてみていただけると嬉しいです。

herp.careers

2019-09-03

not 0, but 1

デザインチームの三好です。

今回はデザイナーっぽいこと書きます。

「アートは自己表現、デザインは問題解決」という言葉をよく聞きます。個人的には100%そうだとは思っていませんが（稀にデザインがアートに、アートが問題解決になることもある）、やはり基本的には明確な問題に対してアプローチしていくものであることに間違い無いかと思います。

一般的にデザイナーとはセンスに長けている必要があると思われがちですが、あくまで感性とは問題解決というゴールに向けてより達成しやすくするための補助であり、最も重要なのは「問題解決能力に長けている」ことだと私は考えます。

オリジナリティを0から生み出す創造性というよりは、培った知識や経験を駆使して1から組み立てていくというほうが正しいかと思います。

では最近作成した開発チームTシャツの制作過程を例に説明してみたいと思います。

以下デザイン案です。

f:id:unifa_tech:20190903170026j:plain

社内デザイン物の中で今回の開発チームのTシャツはかなり自由度の高いデザインが許されるものです。かといってただビジュアル要素のみ重視して制作しても問題解決にはなりません。まず最善の答えを設定します。例の場合、最初に課せられた効果は以下になります。

①エンジニアを感じさせるもの　②イベント登壇時に着るイメージ

まず登壇時に着用する際のアピールとして前面プリントを選択しました。かつイベント着席時に後方の参加者からも認識してもらえるように社名ロゴを背面に配置。

開発チームのテーマである「保育をハックする」をメインに置いて（いくつか違うものも混ざってますが…）、インパクトの強い言葉に共鳴させるためボディは黒にしました。

後は「ハックする」を軸にしてイメージを具現化していきます。今回は主に図形を使って効果の強度を高めていきました。

例えば、図形を壁に置き換えてそれを線で打ち破っていく、”既存のルールを壊していくハッカー”を表現してみたり。

f:id:unifa_tech:20190903165826j:plain

最終的には女性が着用することも考慮し、ユニセックスな要素のあるデザインで落ち着きました。多色なラインのデザインはエンジニアに馴染みのあるターミナルカラーをイメージしています。

デザインは制作した全ての行為を言葉で説明できなければいけません。明確な目的がある限り全てに意味がなければならない。

デザインは絶対的に他人に向けて発信されるものである為、説得力が必要になります。自己犠牲なくして成り立たない仕事だと思っています。

1つの制作物を作るまでには思考する時間とチーム内での協力（客観的視点やレビュー）が必須です。特に私の場合は油断すると抽象的な方向へ飛んでいってしまうので、チームからの冷静な指摘があってようやくデザインとして成り立っていきます。

では、次回はデザインがいかに地味な作業の積み重ねかということをお話ししたいと思います。

2019-08-27

イメージキャプショニング入門

AI Python 深層学習

研究開発部の浅野です。深層学習で熱い分野の一つに、自動で画像の説明文を作成するイメージキャプショニングがあります。画像を解釈するコンピュータビジョンと適切な言語表現を生成する自然言語処理、どちらも手掛けたい！という欲張りなあなたにぴったりです。保育園では日誌や連絡帳などたくさんの書類作業がありますが、写真を一枚撮っておけば簡単な情景描写までは機械で済ませてくれるようになると、そうした書類作成の負荷が軽減できるかもしれません。

基本的なアプローチ

f:id:unifa_tech:20190823120903j:plain:w450 — イメージキャプショニングを行うネットワークの基本構造

対象の画像をConvolutional Neural Network(CNN)に入力して特徴空間でのベクトルに変換し、作成途中の説明文(単語列)をRecurrent Neural Network (RNN)に入力して同様に特徴ベクトルにする。それらを全結合ネットワーク(Fully Connected Network, FC)に入力して次の単語を推定する、というのが基本的な流れです。

学習の実際

f:id:unifa_tech:20190823122511j:plain:w250:left

例えばこの画像(Source: PhotoAC)に対して「サングラスをかけた赤ちゃんが水辺でくつろいでいる」という説明文を生成するように学習を行う場合、まず画像をCNNに、文の開始を意味する単語をRNNに入力し、出力される単語が「サングラス」になるように各ネットワークの重みを再計算します。

次のステップでは、CNNへの入力は変わらず、RNNへの入力は「サングラス」にします。その出力が「を」になるようにネットワークの重みを修正します（下図）。このようにしていろいろな画像に対して正しい文を生成するようなモデルを作成すべく、たくさんの画像と説明文の正解データをもとに学習を行っていきます。

f:id:unifa_tech:20190823125144j:plain:w550 — ネットワークの学習における入出力の例

実装

基本の構造はかなりシンプルなのでKerasによるモデル部分の記述も下記のように簡単です。今回は学習時間を短縮するため、CNN部分にはImageNetで学習済みのInceptionV3を使って事前に各画像の特徴ベクトルを作成しました。RNN部分にはLSTM(Long Short-Term Memory)を使用しています。学習用のデータにはFlickr8kを使いました。

from keras.layers import Input, Dense, LSTM, Embedding, Dropout
from keras.layers.merge import concatenate

def define_model(vocab_size, max_length):
    #photo feature extractor
    inputs1 = Input(shape=(2048, ))
    fe1 = Dropout(0.5)(inputs1)
    fe2 = Dense(256, activation='relu')(fe1)

    #sequence model
    inputs2 = Input(shape=(max_length, ))
    se1 = Embedding(vocab_size, 256, mask_zero=True)(inputs2)
    se2 = Dropout(0.5)(se1)
    se3 = LSTM(256)(se2)
    
    #decoder model
    decoder1 = concatenate([fe2, se3])
    decoder2 = Dense(256, activation='relu')(decoder1)
    outputs = Dense(vocab_size, activation='softmax')(decoder2)
    
    model = Model(inputs=[inputs1, inputs2], outputs=outputs)
    model.compile(loss='categorical_crossentropy', optimizer='adam')
        
    return model

結果

f:id:unifa_tech:20190823134658j:plain:w250:left

学習の様子(左)を見ると、学習時の損失(青線)は順調に下がっていますが、評価時の損失(橙線)はEpochが進むとすぐに下げ止まっています。今回は非常に単純な構成かつCNN部分も学習済みのものを使って重みの更新をしていないため、それほど汎化性能がよくないのはやむを得ないところです。

f:id:unifa_tech:20190823122323j:plain:w350:right

学習に使用していない画像(Source: COCO)で実際にどのような説明文が生成されるかみてみましょう（右図）。画像の上部にある"man in red shirt is riding bike on the street"がモデル自動でつけた説明です。当たらずとも遠からず、という感じですね。

まとめ

イメージキャプショニングの大まかな構成と流れについて見てきました。画像(や動画)と言語が交わる分野には、イメージキャプショニングの他にもビデオキャプショニング、動画のアクション理解、ビジュアル質問応答、映像要約など、保育の世界でも役に立つ可能性がある技術がたくさんあります。引き続き注目していきたいと思います。