アート評価アルゴリズムを作る：オークション価格を実際に予測する要素は何か

ここ数週間、関連する2つのプロジェクトに取り組んでいました。1つ目は2024年の Scientific Reports に掲載された Lee et al. の論文、“Social signals predict contemporary art prices better than visual features, particularly in emerging markets” の再現です。この論文は、存命作家590人による34,200件のオークション記録でXGBoostモデルを学習させています。2つ目は Art Evaluator という Django + Expo のプラットフォームを作る作業で、作家・所有者・オークション記録をノードとして持つナレッジグラフが中心です。要するに、上記のようなモデルで何か意味のあることをしようと思ったときに必要になるデータ基盤です。

両方のプロジェクトとも、最終的には同じ問いに行き着きました。アート作品がいくらで売れるかを、本当に予測できるのか？答えは「できる」です。ただし作品そのものを見ても無理です。意味のある変数はほぼ全て社会的シグナルです。

アートの価格付けが難しい理由
#

コードを書く前に、鑑定士やオークションハウスが実際にどう値付けしているのかを数日かけて読みました。考慮要因のリストは長く、そのほとんどはきれいに数値化できません。

来歴（プロヴェナンス）: 誰が所有してきたか、どこで展示されたか、どのカタログに掲載されているか。
帰属と真贋: 財団から本物と確認された作品は、「〜と伝えられる」だけの作品より桁違いに高価です。
作家の評判: 個展、ビエンナーレ参加、美術館収蔵、批評家の評価。
状態: 保存状態、修復履歴、保存修復士のレポート。
稀少性: エディションの大きさ、形式、作家の作品世界の中で主題がどれくらい珍しいか。
媒体: キャンバスへの油彩は紙の作品より、紙の作品は版画より、一般的に高値が付きます。
機関による承認: MoMA、Tate、Louvre が所蔵している作品には、2次市場が信頼するハンコが押されることになります。
市場のタイミング: 直近の比較事例が重要です。5年前のコンプはすでに陳腐化しています。

サザビーズの専門家は「感情価値」というカテゴリの話もします。コレクターの欲望、入札合戦の力学、個人的な共鳴といったものです。これらは合理的な見積もりを大きく超えてハンマー価格を押し上げます。直接モデル化することはできませんが、オークションハウスの事前予想額を通して間接的にその形を捉えることはできます。

実務で最も使われている評価手法は 比較売買分析（comparable sales analysis） です。同じ作家による類似作品の最近のオークション結果を探し、差分を調整します。XGBoostモデルが行っていることは本質的にこれです。ただし、人間の鑑定士が手作業で追えるよりはるかに多くの特徴を、はるかに大規模に扱うだけです。

論文の中心的主張
#

Lee et al. の主張は直感に反します。アート作品の視覚的内容は価格をほとんど説明しないというのです。視覚的特徴のみ（色、構図、エッジ密度、ResNet18 の埋め込み）を使ったモデルは R² 約 0.055 にとどまります。平均値を当てるより少しマシな程度です。

作家レベルの「社会的」特徴のみ（キャリアステージ、展示歴、過去のオークション価格、ArtFacts ランキング）を使ったモデルは R² ≈ 0.73 に達します。さらにオークションハウスの事前予想額を特徴として加えると 0.92 まで上がります。

言い換えれば、作品そのものはほとんど重要ではありません。重要なのは誰が作ったか、そして市場がその人物について既にどう語っているかです。

論文の二つ目の主張は、この差が新興市場でさらに大きいということです。ここで言う新興市場とは、アメリカ・イギリス・フランス・ドイツの確立された中核以外を指します。そうした市場では社会的シグナルがより重要であり、同時に専門家の予想額の精度が下がるため、アルゴリズムによる予測が価値を加える余地が大きくなります。

論文を再現する
#

依頼内容はシンプルでした。1人開発の MVP として論文を再現する。本番デプロイなし、リアルタイムデータパイプラインなし。忠実な再実装、プロトタイプ品質のコード、所見を書面化したレポート。

データ
#

論文は補足資料としてクリーニング済みの CSV を提供しています。

ファイル	行数	内容
`Df_mloutfull.csv`	86,221	500列以上を持つ生データセット
`df_for_ml_improved_up_to_2012.csv`	34,200	メインのクリーニング済みデータセット、1996–2012
`df_for_ml_improved_old_market.csv`	29,853	既存市場のみ
`df_for_ml_improved_new_market.csv`	4,346	新興市場のみ
`transactions.csv`	114,283	画像リンク付きの生オークション記録

全体で約 5GB です。RAM に余裕で収まり、この程度のデータセットでの XGBoost 学習はラップトップの CPU で5分かかりません。コアモデルに GPU は不要です。この規模の表形式データに対して、勾配ブースティング木の学習コストはほぼゼロです。ニューラルネット中心の数年を過ごしていると忘れがちですが、そういう状況です。

特徴量
#

モデルは38個の特徴量を3つのカテゴリに分けて使います。

作家について（30個）：

属性: 年齢、性別、学歴、トップスクール出身フラグ。
キャリア: ArtFacts ランキング、個展、グループ展、ビエンナーレ参加、受賞。
収蔵: 個人および公的コレクションの数。
価格履歴: 作家の直近5回・10回の販売における平均、中央値、最高、最低。
サイズ調整済み価格履歴（平方インチあたり価格）。
地理: 作家が活動・居住する場所、国フラグとしてエンコード。
マッチフラグ: 作品のジャンルが作家の通常のジャンルと一致しているか？販売国は一致しているか？

市場について（8個）：

オークションハウスのティア（1–4）。
その年・その国/地域の価格水準（最小、平均、中央値、最大）。

作品そのものについて（視覚以外）：

幅、高さ、平方インチでの面積。
媒体カテゴリ（絵画、版画、写真、彫刻、その他）。

このリストに無いのは、作品の実際の視覚的内容に関するものです。それはアブレーション研究としてのみ登場します。

学習/テストの分割
#

ランダムではなく時系列ベースです。2011年5月以前を学習用に（約80%、約27,360行）、それ以後をテスト用に（約20%、約6,840行）回します。ランダム分割すると作家の価格履歴特徴量を経由して未来情報がリークします。同じ作家のレコードを学習とテストにランダムに散らすと、テストセットの行はローリングウィンドウ特徴量を通して互いの価格をすでに「見て」しまっており、R² が人為的に膨らみます。

一度気づけば当然なのに、最初に作るときには見落としやすい類のものです。

モデル
#

XGBoost 回帰、log10(price_usd) を予測します。検証用スライスを切り出して max_depth と learning_rate のハイパーパラメータを探索します。モデルの変種は2つです。

専門家予想額なし。 目標 R² ≈ 0.73。
専門家予想額あり。 目標 R² ≈ 0.92。

「予想額あり」の変種は、オークションハウスの事前予想額の下限と上限を追加特徴量として使います。この2つだけ単独でも R² ≈ 0.90 が出ます。その上に社会的特徴を載せると、もう 0.02 ほど上がります。絶対値としては小さいですが、専門家がすでに知っていることを超えて、実際に予測の仕事をしている部分です。

どこまで合わせようとしたか
#

論文を超えようとしていたわけではありません。すべての条件で彼らの R² 値の ±0.03 以内に収めることを目指していました。ヘッドラインの数値（メタデータのみで約 0.73、予想額込みで約 0.92）は再現性が良いです。XGBoost はシードを固定すれば決定論的で、特徴量もよく定義されています。ドリフトが予想された箇所は2つ。視覚特徴アブレーション（PCA 次元や画像前処理の小さな差で結果が動く）と新興市場分割（4,346行しかなくノイズが大きい）です。

視覚特徴がほとんど効かない理由
#

これは私にとって最も興味深い結果でした。論文の視覚パイプラインは、画像1枚あたり 8,971 個の数値を抽出します。

GIST ディスクリプタ（960次元）: 全体的な空間レイアウト。
方向勾配ヒストグラム（HOG）（2,915次元）: エッジ構造。
カラーヒストグラム（4,096次元）: パレット分解。
ResNet18 特徴（1,000次元）: 事前学習済みの高次埋め込み。
カラフルネス（1次元）: 鮮やかさのスカラー。
複雑度（1次元）: エッジ密度のスカラー。

これを PCA で圧縮して XGBoost に入れると、R² ≈ 0.055 になります。色だけで 0.056。エッジ構造で 0.029。ニューラルネット埋め込みで 0.009、実質ゼロです。

きれいな説明をすれば、オークション価格は個別の作品ではなく作家のレベルで決まるということです。同じ作家による2枚の絵はキャンバスに何が描かれていようと似たような価格で売れます。値付けされているのは署名だからです。

オークションのカタログノートを読んだことがあれば、これが本当である理由はわかるはずです。彼らはほぼすべての言葉を来歴、展示歴、比較売買に費やしています。作品そのものについてはほとんど描写しません。

その 5% という数字を真に受けるなら、作品の美的内容は市場価値からほぼ切り離されています。市場が報酬を与えているものが何であれ、それはキャンバスの上にはありません。ピクセルレベルでアートを理解するモデルは、作家の履歴書だけを知っているモデルより価格予測が下手になるでしょう。

Phase 3 は条件付きだった
#

論文の画像リンク列は、2012年に有効だった URL を指しています。2026年にはほとんどが死んでいます。私が立てたプランでは、8日目にこのリスクを取り上げました。URL を100個ランダムに抽出して、何個生きているか確認する。半分以上が消えていれば、視覚フェーズ全体をスキップして理由を文書化する。

そもそも視覚特徴は価格分散の約5%しか説明しません。それほど小さい数字を確認するためにビット腐敗と2週間も戦うのは良い取引ではありません。死んだリンクの発見をレポートの一部として書き上げて、先に進む方がマシです。

既存市場 vs 新興市場
#

論文は既存市場（アメリカ、イギリス、フランス、ドイツ）と新興市場（残りの19カ国）について別々のモデルを学習させます。中心的な結果：

特徴セット	既存市場 R²	新興市場 R²
視覚のみ	0.053	0.056
メタデータ（社会的シグナル）	0.667	0.750
メタデータ + 予想額	0.916	0.859

二点が目を引きます。第一に、社会的シグナルは新興市場でより重要になります。素朴には、既存市場の方がデータが豊富だから社会特徴のパフォーマンスも高いはずだと思うかもしれませんが、逆です。新興市場では、社会的シグナルが予測作業のより大きな部分を担っています。

第二に、新興市場では専門家予想額の精度が下がります。予想額追加時の 0.916 vs 0.859 の差がそれです。既存市場では、アルゴリズム予測は数十年分の比較売買データを背負ったサザビーズの専門家と競合しなければなりません。新興市場では、その専門家のデータが薄く、アルゴリズムが価値を加える余地が大きくなります。

このモデルを商業化するなら、新興市場こそが本当に元が取れる領域です。

明記しておく価値のある制約
#

これは論文の再現であって、本番システムの構築ではありません。やっていないことの一部：

リアルタイムデータパイプラインなし。 モデルは 1996–2012 のオークションデータで学習し、二度と更新されません。
デプロイなし。 成果物はノートブックとレポートで、予測 API ではありません。
ドリフト検出なし。 一度学習されたモデルは、市場がいつ変化したか分かりません。
凍結されたデータセット。 暗号アート、NFT、コロナ後の市場変化は学習データに存在しません。
韓国市場特化なし。 K Auction や Seoul Auction の価格を予測したいなら、オークションハウス固有の特徴と、可能なら韓国市場専用のモデルが必要になります。

モデルはまた、過去のパターンを反映します。現代美術市場が2015年あたりに構造的に変化したのなら（そう主張する声もあります。アートフェアが1次市場の場として台頭し、新しいコレクター層が参入したという話です）、1996–2012 のパターンは一般化しないかもしれません。

論文からプラットフォームへ
#

論文を読んで再現したことで、もう一つのプロジェクトに対する見方が変わりました。Art Evaluator はもともと、アート展覧会のためのクラウドファンディング・マーケットプレイスとして構想されていました。作家は来たる展覧会のための資金を先に確保し、投資家はオークション市場が通常許容するよりも早く新興作家にエクスポージャーを得ます。

プロダクトの表面は意図的にシンプルです。作家は資金を必要とする来たる展覧会を投稿します（会場、日程、出展予定作品）。投資家は特定のショーを段階別の金額（$100、$500、$1,000、$5,000）で支援し、作品が売れたら上振れの一部を受け取ります。AI エージェントが作家と投資家のチャットの大部分を処理するので、どちらかがオンラインでなくても会話の勢いが切れません。韓国のギャラリーが14時間の時差を挟んでアメリカのコレクターと話している場合は特に有用です。

資産は作家であって作品ではない、ということが腹に落ちると、データモデルもそれに合わせて変わるべきです。重要なのは：

誰が各作品を所有してきたか（グラフ内のノード連鎖）。
どこで展示されてきたか（機関承認シグナル）。
比較作品はいくらで売れたか（作家のオークションコンプ）。
同じ作家の作品を他に誰が所有しているか（コレクターネットワーク効果）。

これがナレッジグラフが必要な場面です。Django バックエンド（apps/artworks/models.py）は4つの基本型をモデリングします。

Artist: 作品を作る人。
AuctionRecord: 価格・日付・ハウスを持つ過去の販売記録。
OwnershipRecord: 誰が何をいつからいつまで所有していたか。
ScrapeLog: データそのものの来歴。すべてのレコードがどこから来たかを監査できるように。

モバイルアプリ（Expo + React Native + @shopify/react-native-skia）はこれらすべてを force-directed グラフとしてレンダリングします。useGraphData が Django の /api/graph/ エンドポイントを叩き、useForceLayout が毎ティック JS 上で d3-force シミュレーションを走らせ、GraphCanvas が結果を Skia で描きます。タイムレンジスライダーで年をスクラブしながらネットワークが進化する様子を観察できます。どのコレクターがいつ参入したか、どの作家がどの美術館に拾われたか、2008年の沈降期にどの作品が手を変えたかが見えます。

各ノードタイプには固有の形と色があります。

ノードタイプ	形	色
作家	ダイヤ	赤
作品	角丸長方形	青
コレクター	円	緑
ディーラー	円	オレンジ
美術館	円	紫
遺産	円	ティール
オークションハウス	六角形	グレー

形は装飾ではありません。数百ノード規模にズームアウトしたとき、ラベルがレンダリングされるのを待たなくても、シルエットだけでどんな種類のエンティティか分かります。円に囲まれたダイヤは、コレクターネットワークを持つ作家です。多数のダイヤとつながる六角形は、複数の作家を扱うオークションハウスです。一目で市場の構造を読み取れます。

2つ目のタブは、同じデータを vis-timeline 軸で見せます。所有期間は水平バー、販売は点イベント。同じグラフを別のレンズで見るかたちです。特定時点のネットワーク形状ではなく、誰が何をいつ所有していたかの順序を見たいときに便利です。

Art Evaluator 自体は価格予測ツールではありません。その下に敷くデータレイヤーです。凍結された 2012 CSV ではなく生きた最新データで Lee et al. のようなモデルに餌を与えたいなら、これがそのために必要な構造です。

クラウドソーシングによる価値評価をゲームに
#

まだ作っていないけれど一番興味があるのが、アート評価をゲーム化することです。

Lee et al. の論文は、オークションハウスの事前予想額を1つの特徴として使い、R² を大きく押し上げます。その予想額が貴重なのは、訓練された専門家の集約された判断だからです。何千件もの比較作品を見てきて、結果に責任を持つ人間たちの判断です。しかしオークションハウスの専門家は、狭くて高価なリソースです。世界に数百人ほどしかおらず、特定の委託品にしか取り組まず、まだ誰も委託していない作家のロングテールには手が届きません。

私が繰り返し戻ってくる問いはこれです。もっと広くて安い判断プールから、似たシグナルを合成できないか？

ざっくりした設計：

ユーザーに作品を見せる。画像、寸法、年、作家名、簡単な経歴。
オークションでいくらで売れるかを尋ねる。
価格帯を選ばせるか、ハンマー額を直接当てさせる。
答えを提出した後で、実際の販売価格を公開する。
時間とともに Brier スコアスタイルの精度評価を付ける。
リーダーボード、デイリーストリーク、連続的中バッジを露出する。
各ユーザーの将来の予測を、過去の精度で重み付けする。

アート価格についての予測市場を、当てっこゲームの形にしたものです。ループは Geoguessr や chess.com のパズルレーティングと同じです。反復可能で、スコア付け可能で、フィードバックがあって熟達できる。よく当てる人はリーダーボードを上っていき、彼らの将来の推測は集約シグナルでより大きな重みを持ちます。

モデル側こそがこれが効いてくる場所です。重み付き集約された推測群が、社会的シグナルと並んで XGBoost に投入できる特徴になります。群衆の精度加重中央値がハンマー価格と良く相関するなら、まだ本物の予想額のない作品について合成オークションハウス予想額に近いものが手に入ります。それは正に、Lee et al. のモデルが最も助けを必要とする作家ロングテールの隙間です。

コールドスタートの観点もあります。モデルは豊富な価格履歴を持つ作家ではよく学習されており、販売が3件しかない作家ではうまくいきません。販売3件 + 群衆の推測1,000件があれば、少なくとも作業できる素材になります。クラウドソーシング評価は、基礎データがカバーしていないケースに対する学習信号を生成する手段です。

ここでゲーム化が重要なのは、群衆を信頼できるものにする唯一の方法が、参加を十分楽しくしてみんなが頻繁に参加するようにすることだからです。一発限りのフォームでは、一度クリックして通り過ぎる人々のノイジーなデータしか得られません。デイリーストリークにリーダーボード、キャリブレーションバッジがあれば、同じ人が1年かけて慎重に検討した予測を500回行ってくれます。ボリュームに自己選別（よく当てる人は残り、当てられない人は飽きる）が加わって、ノイズではないシグナルになります。

作る前に解いておくべき設計問題：

ユーザーには何を見せるか？ 画像と経歴だけ？それとも文脈として比較売買も見せる？文脈が多いほどよく情報を得た推測になりますが、それはユーザーがすでに見せられたものを反芻するということでもあります。
価格フィードバックをどれくらい出すか？ ハンマーをそのまま？範囲？±20% 以内だったかどうかだけ？粒度が細かすぎるとユーザーが特定の数字にアンカーするように訓練してしまい、曖昧すぎるとキャリブレーションできません。
リーダーボードのゲーム化をどう防ぐか？ プレイヤーは自分が既に知っている作家に流れます。Banksy の推測は実力ではなくほぼ豆知識です。Duolingo のレッスン選択のように強制的なランダムサンプリングを入れて、作家名を伏せた「ブラインド」ラウンド用に別ランキングを設けるのが現実的でしょう。
後知恵バイアスにどう対処するか？ バスキアの作品が1億1千万ドルで売れたと知ってしまえば、それを知らない状態には戻れません。新たに見たことのない作品の供給がループの誠実さを保つ要で、その供給は週あたり有限です。

ゲーム化のフレーミングはプラットフォームの両半分を結びつけもします。クラウドファンディング側は、ショーが財務的に成功したときに投資家に報酬を与えます。当てっこゲーム側は、課金している投資家であろうとなかろうと、価格をうまく当てる人に報酬を与えます。両方とも同じアイデアの変種です。群衆の集合的判断を取引可能なシグナルに変えようというものです。一方は資本を取引し、もう一方は注意を取引します。本物の優位を育てたプレイヤーは、検証可能な価格当て精度のトラックレコードを引っ提げて、最終的に投資家側に卒業できます。「正しい画商を知っている」よりはるかに良いフィルタです。

持ち帰ったこと
#

入る前には予想していなかったことを少し：

1. 事前予想額は非常に良い。 オークションハウスは不透明な値付けで批判を浴びがちですが、彼らの事前予想額だけで価格分散の約 90% を捉えます。専門家が何をしているにせよ、彼らはそれを上手にやっています。

2. 作品そのものは統計的にほとんど意味がない。 美的な理由でアートを大切にしているなら居心地の悪い結論です。市場はあなたが見ているものに値段を付けません。他の人々が隣接する作品にすでに支払った金額に値段を付けます。

3. 時系列分割は価格モデルを評価する唯一の正直な方法。 ランダム分割は、本番デプロイには耐えない見栄えのいい R² を返します。

4. 勾配ブースティング木は依然として正しい道具。 論文では XGBoost がすべてのニューラルベースラインを打ち負かします。この規模・このエンジニアリング済み特徴構造の表形式データに対して、トランスフォーマーに手を伸ばす理由はありません。

5. 興味深い機会は新興市場にある。 そこが専門家による値付けが最も薄く、アルゴリズム予測が埋めるべき差が最も大きい場所です。

6. 群衆は活用されていないデータソース。 Lee et al. のモデルで最も大きな単一特徴はオークションハウスの事前予想額でした。キャリブレーションされた群衆が作家ロングテールについて同等のシグナルを生み出せるなら、それは本物の機会です。モデル入力としても、それ自体プロダクト面としても。

2つのプロジェクトは、計画していた以上に補完的になりました。論文の再現は何が価格を予測するかを教えてくれ、プラットフォームの作業はその知識を実際に使うためにどんなデータ構造が必要かを教えてくれました。ゲーム化のアイデアが両者を結びつけます。プラットフォームのナレッジグラフが作品と過去の販売を供給します。当てっこゲームが群衆由来の予想額特徴を生成します。モデルがその特徴を社会的シグナルと並べて消費し、そうでなければ見えない作家たちについて予測を出します。

何も完成していません。論文の再現はレポート付きの動くプロトタイプです。プラットフォームはシードデータが入ったデモです。クラウドソーシング評価ゲームは、いま読んだ設計メモとしてのみ存在します。ただ通底する筋が十分一貫していて、適切な形はそれなりにはっきり見えると思っています。作品ではなく作家に値を付けること、専門家だけでなく群衆を集約すること、評価を専門家が上から手渡すものではなく市場が一緒に作り上げるものとして扱うこと、です。

時間が許せば、次に作るのはこのバージョンです。

アートの価格付けが難しい理由#

論文の中心的主張#

論文を再現する#

データ#

特徴量#

学習/テストの分割#

モデル#

どこまで合わせようとしたか#

視覚特徴がほとんど効かない理由#

Phase 3 は条件付きだった#

既存市場 vs 新興市場#

明記しておく価値のある制約#

論文からプラットフォームへ#

クラウドソーシングによる価値評価をゲームに#

持ち帰ったこと#