
インターネットを使った処理をする場合に、きちんと法律的なルールを知っておくことは重要です。
著作権をはじめとする知財や、アクセス過多などの迷惑行為は、知らない場合に法律で罰せられてしまう場合もあります。
また、サイト事に、利用規約やサービス規約といった、それぞれのルールが設けられているのも絶対に無視してはいけません。
間違いを犯さないためにキチンとスクレイピングのルールとマナーを理解しておきましょう。
法律・規約の観点
Webサイトには利用規約があり、「自動取得やスクレイピングの禁止」が明記されていることがあるのでそれをキチンと読む事が重要。
著作権のあるデータ(記事・画像・商品説明など)を勝手に再利用すると法的リスクがあるため、必ず確認をする必要がある。
スクレイピングで得たデータを商用利用する場合は、必ずライセンス確認を行うこと。
アクセスログやアカウントを利用しての「なりすまし取得」は不正アクセス禁止法に抵触する可能性あるので要注意。
スクレイピング先の会社などを調べておくことも、いろいろな自己防衛につながるので、この点も視野に入れておくことがオススメ。
確認事項まとめ
・利用規約の確認
・著作権の確認
・ライセンスの確認
・不正アクセスの確認
・会社情報などの確認
サーバーへの配慮(技術的マナー)
1. robots.txt
robots.txt を確認し、対象ページのクローリング許可の有無をチェックする
例: User-agent: * / Disallow: /private/ などが設定されている場合にスクレイピングを配慮する必要がある。
参考ページ :
https://qiita.com/Broccolingual/items/aa1f48454b9972b82d63
リクエストヘッダ情報
User-Agent ヘッダーを適切に指定して、Botであることを明示してあげることで、ログデータ対応のお作法を理解しておく。
ヘッダの書き方はクローリングをするそれぞれのプログラムでセットする必要がある。
3. リクエスト数
一定間隔(1秒以上)を空けてリクエストを送信する(負荷をかけない)。
一度に大量アクセスせず、ページ数・時間帯を分散させる。
4. API利用
APIが提供されている場合は、極力APIを利用する(HTMLより安全・正確)
倫理・社会的マナー
公開されている情報でも、「再利用の前提ではない情報」は慎重に扱うべきです。
データ収集の結果が、元サイトや他ユーザーに不利益を与えるような使い方をしないということを考えましょう。
他者が作成した情報を「自分の成果物」として公開・販売してはいけません。
「学習目的」でも、共有・公開すると商用とみなされる場合があるので、うっかりなどで公開しないようにしましょう。
実務での対応例
スクレイピング前に相手先に「許可を取る」事で信頼を築く事も検討する。
いきなり相手先から、「内容証明郵便」など、法的に訴えられるリスクを回避するために、事前に確認するというのは、いい流れになる場合があります。
ただ、ビジネス上での守秘義務などの観点で連絡ができない場合もあるので、法的に検討するスキルも必要になるかも。
サービス開発時は、法務チェックや利用規約レビューを実施する事が重要。
法務部門などがあれば、それらを活用して、グレーゾーンをできるだけホワイトにしていく事で、安定した作業進行ができます。
収集データに加工・集計などを加え「付加価値」を付けることが重要。
データをそのまま使用するというのは、あまり生産性のない事です。
複数のデータを組み合わせて独自の結果の値を求めるとか、比較を行うというようなことをしなければ、
単に値を取得するだけの行為はあまり生産性がないので、スクレイピングする行為そのものが気薄になる可能性もあります。
スクレイピングをするには、それ相応の意味が存在するというのも事実ですね。
結論
スクレイピングは「技術」だけではなく、「信頼と責任」を持って使うことが大切です。
ルールを守れば強力なツールになりますが、無自覚な利用は自分も相手も損をします。
「相手の立場に立った設計と運用」を意識することが、真のエンジニアとしてのマナーです。
法的リスクも含まれる場合もあるので、身勝手なスクレイピング処理は行うべきではありません。
知らなかったでは済まない場合もあるので、ちゃんとリスクも踏まえて、技術からの責任所在など、
学習しておくべき事は意外とたくさんあることを理解して健全なスクレイピングを行いましょう。
0 件のコメント:
コメントを投稿