7月1日から、ツイッターが閲覧できなくなるなどの障害が発生しています。その原因は、ツイッター側が十分説明していないため不明ですが、オーナーのイーロン・マスクはdata scrapingに対応するため、一時的にアクセスを制限したと説明しています。
これによると認証アカウントは1日6000件、認証されていない既存のアカウントは600件、認証されていない新しいアカウントは300件に制限したようですが、このデータ・スクレイピングって何でしょうか。チャットGPTにきいてみました。
データ・スクレイピングは、コンピューター プログラムがWebサイトまたはプログラムからデータを抽出し、それをコンピューター上のスプレッドシートまたはローカルファイルに保存する手法です。これは、分析、処理、またはプレゼンテーションのために大量の情報を取得する効率的な方法です。 データスクレイピングは、さまざまな用途の結果を提供し、データ集約の側面を自動化します。
スクレイピングというのは「収集」とか「強奪」とか訳すこともありますが、ウェブサイトに大量にアクセスして、データを保存すること。元のデータを破壊するわけではありません。
本当にそんなことが起こってるんでしょうか。
ブルームバーグによると、ChatGPTの作成者であるOpenAIは、書籍、記事、Webサイト、投稿、同意なく取得した個人情報など、インターネットから3000億語を秘密裏に収集した疑いで提訴されています。
ツイッターのアクセス制限は、グーグル・クラウドの料金を払わなかったため、契約を切られたのが原因との説もあります。
今に至るもツイッター社が正式の説明をしないので真相は不明ですが、生成AIは他のウェブサイトから大量にデータを収集することが必要です。それを「データの強奪」と呼ぶかどうかはともかく、ネット上の情報収集ルールは見直す必要があるでしょう。