AIソーシング vs 手作業ソーシング ― リストだけを変えると、何が動くのか
AIソーシングと人手のリサーチを比較した記事の多くは、変えている変数が多すぎて読みにくい。新しいツール、新しい文面、新しいチーム、ときには新しい市場セグメント。本当に面白い問いは、もっと狭いところにあります。他のすべてを固定したまま、誰がリストを作るかだけを変える。そうすると何が動くのか。これが、自社の現場で6ヶ月にわたって走らせた検証です。出た差は、その理由まで踏み込んで理解する価値のある大きさでした。
動かす変数を「誰がリストを作るか」だけに絞った同条件比較 ― リクルーターも、スカウトメールのエンジンも、送信スタックも、顧客構成も固定 ― では、AIが作るリストは、人手のリストを大きく上回ります。自社の現場の526日分のデータで、AIのリストは案件適合性の指標で平均77%高いスコアを示し、平日の受信返信は+97%伸びました。仕組みは魔法ではなく、対象範囲です。シニアリサーチャーが1案件で吟味できるのは数百件。AIは、同じ要件で数百万件を評価します。母集団が大きくなれば、適合する候補者が「評価される側」に入る確率も上がります。それだけのことです。
同条件比較が、実際にコントロールしているもの
AIソーシングの事例のほとんどが読みにくいのは、検証の条件がゆるすぎるからです。あるチームがAIプラットフォームを導入する。同時に、リクルーターを2人増やす。スカウトメールの文面も書き直す。送信ツールも変える。職域も広げる。半年後に数字は良くなっていますが、どの変更が伸びを生んだのかは、もう切り分けられません。
当社の切替は、めずらしいほど明確でした。導入前の345日と導入後の181日のあいだ、4つの条件を固定しています。リクルーターの人数は変えていません。スカウトメールのエンジン ― Headhunt.AIの生成エンジン ― は、計測開始日からの送信エンジンでした。送信スタックも、設定込みで同一です。顧客構成と市場 ― 日本市場のミッドマーケット採用、バイリンガル金融・IT・営業・コマーシャル・HR・マーケティング ― も固定です。動かした変数は、ひとつだけ。誰がリストを作るか。導入前は、リクルーターとリサーチャーが、LinkedIn Recruiter、ATS検索、手作業のソーシングワークフローでリストを組み立てていました。導入後は、AIが組み立てます。
この設計は、候補者リストの質という変数を、伸びの原因として主張されうる他のすべてから切り離します。仮にスカウト文面も変えていれば、伸びの帰属は「リスト」と「文面」のあいだで曖昧になっていたでしょう。文面は変えていません。仮にリクルーター人数が増えていれば、「リスト」と「人手」のあいだで曖昧になっていたでしょう。人数も変えていません。残された因果ルートは、読み取れるほど狭くなっています。
何が動いたか、数字で
3つの主要な数字を、頭に置いておいてください。すべて同じ6ヶ月のデータから、同じ現場の数字です。それぞれが、次の数字の説明になっているという意味でも、内部的に整合しています。
→ AIリストが平均77%高い
→ 本データで最も厳密な同条件比較で+97%
面接通過率+13.5%、オファー受諾+14%
→ 返信の伸びは、成約まで生き残った
よく見出しになっている+78%は、全日の平均です。導入後は週末の送信を止めているため(2026年第1四半期からの運用変更です)、1日あたりの分母が圧縮されます。平日のみの数字はこの影響を取り除いたもので、本データで最も厳密な単一の指標です。そして、それが+97%と、見出しの+78%より大きい。中途で別の運用変更を入れたケースで、誠実に切り出した数字のほうが見出しより大きく出るのは、めずらしい現象です。
なぜ動いたのか ― 仕組みの4つの理由
リスト品質は、ぼんやりした選好ではありません。具体的な4つの仕組みに分解できます。それぞれは、好きなプラットフォームで、ひとつの案件で検証できます。本記事を反証したい場合、見るべきは見出しの数字ではなく、この4つが現れているかどうかです。
-
評価の深さを保ったままのカバレッジ。
シニアリサーチャーが、案件あたりで本気で吟味できるプロフィールは200〜400件 ― 単なる候補者の流し読みではなく、判断を伴うプロフィール全体のレビューです。AIは、同じ評価指標を数百万件のプロフィールに適用します。人手のほうがプロフィール1件あたりの深さで上回っていたとしても、本当に合う人は、母集団が大きい側に入っている確率が高い。これが、差の大部分です。
-
情報量の少ないプロフィールを救い上げる。
LinkedIn Recruiter、Bizreach、そして多くのATSは、リクルーターが入力したキーワードに対してプロフィールでの記述が薄い候補者を、結果から沈めます。日本語のみで運用している人、別の言い回しを使っている人で、案件にぴったり合う候補者でも、検索結果の上位には現れません。AIスコアリングは、キーワード密度ではなく、案件に対するプロフィール全体を評価して順位付けします。キャリアの実態が合っている候補者は、ちゃんと浮上します。
-
バイリンガルの対称性。
LinkedIn RecruiterやBizreachで、日本語と英語のキーワードを混ぜて検索すると、片方の言語だけで検索したときよりも、結果が小さくなります。キーワードの重なりの計算が、足し算ではなく掛け算で効いてしまうからです。バイリンガル人材の母集団は実在するのに、キーワード検索では実際より小さく見えてしまう。AIスコアリングは両言語で同等に動くため、この人為的な縮みが生じません。
-
キャリアの軌跡シグナル。
もっとも強い適合シグナルのうち、キーワードとして符号化されていないものがあります。キャリアの軌跡の形(ティア1企業からティア2企業への移籍に、明確なキャリアステップを伴うパターン)、対象案件にマッピングできる隣接業界の経験、間接的な企業ティアの証拠(小規模企業のマネージャー職が、大企業のミドル級と同等の運用範囲を示しているケース)。これらは、Booleanでは到達できません。AIスコアリングは、検索フィールドではなく案件そのものに対して評価基準を書くため、これらを直接評価できます。
見出しほどの差が出ない領域
77%や97%という数字は、計測したすべての職域カテゴリにわたる平均です。効果の分布は、より広く、誠実に見ればばらつきがあります。差が大きい職域と、差が小さい職域がある ― その区別は、AIソーシングを上手く運用するか、漠然と運用するかの分かれ目です。
差が特に大きい職域には、職域横断のバイリンガル・ミッドマーケット採用(上のバイリンガル対称性の仕組みが効くため)、そして職域内でキーワードの並びが安定しないあらゆる案件 ― 隣接業界からの採用、キャリアチェンジ採用、肩書が職責の幅を過小に示しているシニア個人貢献者などが入ります。こうした案件では、シニアリサーチャーの手作業リストは、対象候補者の30〜50%を取りこぼします。
差が小さい職域には、母集団が小さく原理的に列挙可能な、ごく狭い専門領域(国内在住で、デリバティブ基盤の経験を持つSolidityエンジニアのように、シニアリサーチャーが現実的にカバーしうる規模)と、適格性シグナルがプロフィール上に出ない私的ネットワークに依存するシニアエグゼクティブ案件があります。これらでも、AIソーシングには価値があります。時間コストの差は実在するからです。ただし、候補者カバレッジの差は小さく、論拠の残りはリクルーター稼働時間の回収のほうに移ります。
誰も走らせない、コスト比較
AIソーシングの導入判断の多くは、ツールの1クレジット単価と、リサーチャーの給与コストを比べます。この比較は、構造的にズレています。正しい比較は、ツール1リスト分のコストと、手作業のリスト作成に消えるリクルーター時間の機会費用 ― つまり、リスト作成をしている時間で取れなかった面談 ― のあいだに、です。
1案件の手作業ソーシングは、リクルーター時間で4〜6時間を消費します。担当案件分を合計すると、リクルーター1人あたり週1日〜1.5日に達します。AIは、同じリストを90秒で出します。回収した時間は、消えるわけではありません。候補者面談、顧客との打ち合わせ、クロージング対話に移ります ― これが、自社のファネルデータで1人あたり面談数+38%として現れる効果の半分です。残りの半分は返信率の上昇から来ます。
なぜ伸びは下流まで生き残るのか
真面目に検討する価値のある反論があります。返信率の伸びは、ファネル上流だけの現象ではないか、と。AIがより多くの候補者を引き当てる。より多くの人が返信する。だが、その返信は本当の関心ではなく、好奇心や、礼儀や、結局成約には進まない不適合候補者かもしれない。もしそうなら、面接段階でその伸びは消え、オファーまで残らないはずです。
伸びは生き残りました。同じ現場の、Q1 2026 vs Q1 2025のファネルデータ ― 面接通過率+13.5%、オファー受諾率+14%。どちらも、より下流の段階での独立した計測です。見栄えだけの返信の伸びは、最初に出て、後で潰れます。今回の伸びは、複利で乗っていきます。適合度の高い候補者は、より高い率でメールを開き、より高い率で返信し、より高い率で顧客の面接を通り、より高い率でオファーを受ける。各段階が、同じ仕組み ― リスト品質が下流に伝播する ― の、独立した確認になっています。
自社の現場で、どう検証するか
もっとも明確な検証は、連携プロジェクトも契約もなしに、1時間以内に走ります。通常は手作業でソーシングしている案件をひとつ選びます ― 自分の理解している職域の、ミッドマーケット、成功報酬。少額のクレジットパックを購入します。AIプラットフォームで案件を実行します。出てきたリストを、その職域を担当しているリクルーターに見せて、ひとつだけ問いを立てます。「このリストの中に、通常のソーシングでは出てこなかった候補者はいるか?」
イエスなら ― 数名でも ― AIは現行プロセスが見落としている候補者を見つけている、ということです。これが、信頼している現場のリクルーターの判断を通った、自社の職域・自社のデータで得られた証拠です。議論は、「あの事例は自社にも当てはまるか」ではなく「自社の案件で、伸びはどう出たか」に移ります。後者こそ、調達判断にとって意味のある数字です。ノーなら、その職域でAIは追加カバレッジを生まなかった、ということで、検証コストは7万5,000円 ― 同じ結論に至る調達プロセス1回分よりは、はるかに安価です。
よくある質問
経験10年のシニアリサーチャーよりも、AIソーシングのほうが本当に良いリストを出すのですか?
案件要件に対するリスト品質を、同じ評価基準で測れば、はい ― 自社データでは、AIのリストは人手のリストより平均で77%高いスコアでした。判断力の差ではありません。差は、対象範囲です。シニアリサーチャーが、1案件で深く吟味できるプロフィールは、せいぜい200〜400件。Headhunt.AIは、400万件超の日本特化プロフィールを、同じ要件で2分以内に評価します。シニアの300件は内容として優れていても、本当に合う候補者がその300件の外にいれば、リストには載らないのです。
AIのリストが手作業のリストを上回る、最大の理由は何ですか?
情報量の少ないプロフィールを拾えるかどうかです。リクルーターが手作業で使うLinkedIn Recruiter、Bizreach、ATSのキーワード検索は、リクルーターが入力した語に対してプロフィールでの記述が薄い候補者を、結果の上位から静かに沈めます。本当にぴったりの人でも、別の言い回しを使っていたり、日本語のみで運用していたりすると、検索結果の上には出てきません。AIスコアリングは、企業ティアの推移、在籍年数のパターン、語学シグナル、キャリアの軌跡まで、案件要件のすべてでプロフィール全体を評価したうえで順位付けします。情報量の少ないプロフィールでも、キャリアの実態が合っていれば浮上します。差の大部分は、ここから来ます。
母集団の小さいニッチな案件でも、同じことが言えますか?
効き方が違います。母集団が小さい案件 ― たとえば、デリバティブ取引所の経験を持つ日本語話者のクオンツ開発者 ― では、AIの強みは「より多くの人を見つけること」ではありません。原理的には、母集団は数え上げられるからです。強みは、Boolean検索では表現できない適合候補者を浮かび上がらせることにあります。隣接業界の経験、副業や活動に出ている潜在スキル、キャリアの軌跡の形、間接的な企業ティアの証拠などです。リストの大きさは変わりません。リストのうち、本当に適合する候補者の比率が上がります。
2023年にAIソーシングを試したとき、リストの質は低かった。本当に状況は変わったのですか?
変わりました。ただし、なぜ変わったのかは率直に説明する必要があります。2024年頃まで、市場に出ていた候補者スコアリングモデルは、シニアリサーチャーの手作業リストに安定して勝てませんでした。表面はそれらしく見えても、本当に合う人がリストに入っていなかったのです。手作業に勝てるモデル世代(GPT-4級以降の大規模言語モデルを、案件ごとの要件で正しくプロンプトし、グラウンディングしたもの)が、大量評価に実用化されたのは2024年です。2022年や2023年に検証したチームが見た結果は、その時点のひとつ前の世代の正直な姿でした。2026年の現行世代で検証すれば、結果は違います。本記事の元になっている本番データが、それを示しています。
ベンダー契約を結ばずに、自社で検証するにはどうすればよいですか?
通常は手作業でソーシングしている案件をひとつ選びます。少額のクレジットパック ― 7万5,000円で500名分が標準的なパイロット ― を購入します。AIプラットフォームで案件を実行します。その職域を担当しているリクルーターにリストを見せて、ひとつだけ問いを立てます。「このリストの中に、通常のソーシングでは出てこなかった候補者はいるか?」もし数名でもイエスなら、AIは現行プロセスが見落としている候補者を見つけている、ということになります。これが、自社のデータで、1時間以内に、契約も連携もなしに得られる証拠です。もしノーなら、その職域ではAIは追加カバレッジを生まなかった、ということで、7万5,000円で同じ結論にたどり着けたと考えればよく ― 同じ結論を出すための調達プロセス1回分よりは、はるかに安価です。
出典
ESAI Scoreの77%差、平日返信+97%、Q1 2026 vs Q1 2025のファネル全段階の数字は、運用実績ブリーフィングからの引用です ― ESAI Agencyの現場で6ヶ月分の受信返信ログとファネルデータをまとめた「Headhunt.AIで、返信が78%増えた。」に詳述されています。基盤となる候補者スコアリングシステムの公開検証サンプルは、メソドロジーに開示しています。1件の有資格ミーティングあたり期待売上(10万7,676円)の導出は、ミーティングユニットエコノミクスの基礎ガイドに。AIリストが手作業リストを上回る仕組みの4つの理由は、エンジニアリング側を含めて「AI候補者スコアリング解説」(Cody Pettit著)でも扱っています。
自社案件で、検証する
自社の現場で走らせれば、議論は理屈から外れます。無料クレジット100件で確認できます。7万5,000円で、実在する案件1件に対して500名のパイロットが回せます。