この記事を書いた理由は、数日前に部門のメンバーが部門に関係するいくつかの既存のアルゴリズムのレビューと整理を行ったためです。しかし、恥ずかしいことに、上司が不在だったため、私たちの話し合いは愚痴の応酬となり、半分の時間は製品や事業部についての愚痴を言うことに費やされました。 しかし、これは喜ばしいことでもあります。当社のデータ部門が、軽量掘削機の操作から深部掘削へと移行したこともわかります。 そこで、この機会に、私がこれまでに触れ、理解し、実行してきた、アルゴリズムとしか言いようのない事柄のいくつかを整理してみたいと思います。実のところ、私はアルゴリズムの専門家ではありません。大学ではネットワークについて多くを学びましたが、データマイニングアルゴリズムが何であるかは全く知りませんでした。 実は、いわゆるアルゴリズムに関して言えば、私の同僚が言ったことは非常に正しいと個人的には思っています。いわゆるアルゴリズムとは、複雑な数学モデルがアルゴリズムであるという意味ではありません。単純な計算式を書いても、それが既存ビジネスの問題点を解決でき、独自のモデルのアイデアを持っている限り、それはアルゴリズムですが、十分に汎用的ではなく、特定のビジネスニーズしか解決できない可能性があります。 大規模データを前提とすると、多くの複雑なアルゴリズム プロセスは実際にはそれほどうまく機能しないため、プロセスを簡素化するためにあらゆる手段を試みます。 簡単な例を見てみましょう。約 1,000 万件のブログ投稿などの大規模なデータセットがあるとします。ブログ投稿が与えられ、最も類似する上位 N 件のブログ投稿を検索するように求められた場合、通常どのようなアイデアが浮かぶでしょうか?通常の方法は、このブログ投稿と他のブログ投稿との類似度を計算することです。類似度を計算する方法はたくさんあります。最も簡単な方法は、ベクトル角度を計算し、ベクトル角度に基づいて類似度を決定することです。さて、最も単純な計算プロセスを使用したとしても、約 1,000 万回計算するのにどれくらいの時間がかかるか想像してみてください。おそらく、このタスクを完了するために Hadoop と分散コンピューティング パワーを使用していると言う人もいるでしょうが、実際に操作してみると、それがいかに苦痛なことかがわかります。 もう 1 つ簡単な例を挙げましょう (わかりました、もっと例を挙げましょう)。たとえば、SVM は収束が難しいアルゴリズムです。ビッグ データを前提として、SVM を使いたい人もいますが、より多くのデータを使用してモデルをトレーニングしたい人もいます。結局のところ、データの量が多すぎるため、多くの人は、より正確なモデルを実現するために、できるだけ多くのデータをトレーニングに使用したいと考えています。しかし、トレーニングデータの量が増えると、収束が難しい SVM などのアルゴリズムは依然として膨大な計算リソースを消費します。 いろいろと話はしましたが、私自身の考えを整理する作業はまだ終わっていません! 1. 私が長年運転してきた掘削機 (1)私が最初に触れたのはおそらくベイズ分類だったと思います。 ベイジアンは最も単純な分類アルゴリズムです。これは、掘削アルゴリズムを初めて使用するほとんどの人が最初に気に入るアルゴリズムです。実際、ベイズの原理は非常に単純です。これは統計学の最大確率原理に基づいています。とてもシンプルですが、非常に便利なので、何年も使い続けています。 トレーニングのプロセスについては、特に言うことはありません。基本的に、すべてのベイズ法はこのような感じです。テキストなので、単語の分割、ストップワードの削除、最も基本的な知識ポイントベクトル、そしてモデル確率の計算という一連のプロセスがあります。しかし、さらに興味深いのは、分類プロセスが Storm で実行され、リアルタイム分類ビジネスに相当することです。 (2)テキストに関しては、当然ながら単語分割アルゴリズムが不可欠です。 実際のところ、単語分割アルゴリズムに関しては、言うべきことはあまりありません。現在、インターネット上のさまざまなオープンソースの単語分割ツールは非常に優れたパフォーマンスを発揮しており、結果もそれほど変わりません。これらをさらに改善することは困難です。文脈分析や隠れマルコフモデルなど、単語分割アルゴリズムの内部を深く調べることについては、個人が興味本位で研究しているのであれば、何も言うことはありません。小さな会社が人材とリソースを費やして単語分割効果を最適化するのであれば、ただ時間を無駄にしているだけだとしか言えません。大企業であれば、資金がたくさんあるので意地悪なのも理解できます。 したがって、これまでのところ、単語分割に関する私の知識は、単語分割アルゴリズムの進化、関連するアルゴリズム、およびいくつかの単語分割ツールの使用に関する予備的な理解に限られています。 実際、テキストマイニングでは、テキストをセグメント化するだけでは不十分です。セグメント化を使用して分割した単語の多くは、ビジネスとは関係のないものであることが多いためです。通常の方法は、対応するビジネス辞書を作成することです。辞書の作成に関しては、もちろんセグメント化も必要であり、その後、さらに処理が実行され、手作業が追加される場合があります。 (3)次のステップはリアルタイムホットスポット分析 これをアルゴリズムとみなせるかどうかは分かりません。リアルタイム性に関しては、当然 Storm と関係があります (OK、これをやったことでデータに触れ始めたのは認めます)。リアルタイムのホットスポットに関しては、ほとんどの人が混乱するかもしれません。わかりやすいように簡単な例を挙げてみましょう。 Hadoop を触ったことがある人なら誰でも、WordCount の典型的な例を知っています。Map to Reduce のプロセスでは、MapReduce はハッシュのような方法を使用して同じキーを自動的に集約します。したがって、MR を使用して単語をカウントするのは非常に簡単です。 Storm のリアルタイム WordCount はどうですか?まあ、これもリアルタイム技術の歴史書に記録できる典型的な事例です (まあ、実際は Storm の HelloWorld です)。 Storm には MR のような自動ハッシュ機能はありませんが、同様の効果を実現できるデータ グループ化フロー戦略も提供しています。また、MR とは異なり、バッチベースではなく、リアルタイムでストリーミングされるため、現在変化する単語の頻度を動的に取得できます。 リアルタイムのホットスポット分析: ホットスポットを単語にマッピングすると、現在のトップ N のホットスポットをリアルタイムで取得できますか?この方向性は大きな研究価値を持っています。ユーザーのホットスポットをリアルタイムで把握することで、ビジネス戦略を動的に調整し、より大きなデータ価値を引き出すことができます。 ただし、一般的に、このデータ モデルはリアルタイム ツールである Storm の機能に大きく依存しており、モデル設計は少なくなっています。それがアルゴリズムモデルであるかどうかについては、前述のように、個人の意見によります。あなたがそう言うなら、それはそうです。 (4)中国では非常に成熟したモデリング手法 - 推奨 国内におけるデータマイニングに関しては、分類と推奨がおそらく最も人気のある2つの方向性です。分類についてはあまり詳しくは述べません。たとえば、先ほど言及したベイズアルゴリズムは、分類アルゴリズムの元祖です。 推奨アルゴリズムについて話すとき、相関ルール、協調フィルタリング、コサイン類似度などの言葉をすぐに思い浮かべる人もいるかもしれません。それは本当ですが、私が話しているのはそれではありません。実際、私が言いたいのは、推奨にはユーザーベースとコンテンツベースの 2 つの方向があるということです。 2 つの点に注意する必要があります。推奨の対象はユーザー、またはアクションや動作を持つユーザーに類似したエンティティです。推奨されるのは、アクションや動作はないが、異なる属性を持つコンテンツです。より専門的な言葉で言えば、ナレッジ ポイントが含まれている必要があります。 ユーザーの推奨に基づいて、私たちが重視するのはコンテンツ エンティティではなく、ユーザーの行動です。ユーザーの行動は、人々の興味の方向性など、何らかの情報を示しているに違いないと考えています。あなたには関連する行動があるため、あなたの行動に基づいて何かを推奨することは常に理にかなっています。 コンテンツベースの推奨では、ユーザーの過去の行動とは関係のないコンテンツに重点が置かれます。私たちは、あなたがこのコンテンツを見ているということは、それに関連するコンテンツにも興味があるのではないかと無意識に考えます。偏っているかもしれないが、大まかな方向性は正しい。 前述の関連ルール、協調フィルタリング、コサイン類似度などは、実際には知識ポイント間の関係性を研究するために確立されたモデルです。 コンテンツベースの推奨の場合、知識ポイントはコンテンツ内のさまざまな属性です。たとえば、映画の推奨の場合、知識ポイントはさまざまなコメントデータ、オンデマンドデータ、トップとボトムのデータ、映画の種類、俳優、監督、感情分析などです。ブログ投稿の場合、知識ポイントは重み付けされた単語です。単語に関しては、単語抽出が含まれ、単語の重みに関しては、TFIDFモデルとLDAモデルが含まれる場合があります。 ユーザーベースの知識については、その知識ポイントの最も直接的な現れはユーザーの行動、つまりユーザーとコンテンツの関係です。しかし、さらに深く見ていくと、コンテンツの知識ポイントとも密接に関係していることがわかりますが、これは1つのコンテンツエンティティではなく、複数のコンテンツエンティティの集合である可能性があります。 (5)テキスト単語の重み付けモデル 先ほどTFIDFモデルとLDAモデルについて説明しましたが、テキスト単語に関連する重み付けモデルについても説明しましょう。 テキストマイニングに関して言えば、TFIDF モデルはほとんどの人が知っているでしょう。これは複雑なので、簡単に説明しましょう。テキストの知識ポイントは単語であることはわかっています。それらはすべて単語ですが、常にいくつかの単語がより重要であり、いくつかの単語はそれほど重要ではありません。 より頻繁に出現する単語が重要だと言う人もいるかもしれません。そうです、それは単語の頻度です。簡単に言えば、この考え方は間違っていません。これは、初期のテキスト マイニング モデルが行っていたことです。もちろん、その効果は明らかに平凡です。なぜなら、頻繁に出現する単語は役に立たない一般的な単語であることが多く、記事にあまり貢献しないからです。 テキスト マイニングの知識ポイント モデリングの問題が根本的に解決されたのは、TFIDF モデルが登場してからのことでした。単語の重要性をどのように判断しますか? あるいは、より専門的に言えば、その単語が記事に貢献しているかどうかをどのように判断しますか? TFIDF は、記事内の単語の重みをその頻度に応じて増加し、その後、複数の記事内の文書頻度に応じて記事内の単語の重みを減らします。簡単に言えば、一般的な単語の重みを減らし、実際に大きく貢献する単語を明らかにします。これが基本的にTFIDFの基本的な考え方です。単語頻度の重みを増やす方法と文書頻度の重みを減らす方法については、特定のモデル式が関係します。さまざまなニーズに応じて調整するだけです。 記事知識ポイントトピックモデリングにとってもう一つの非常に重要なモデルは、LDA モデルです。これは比較的一般的な記事トピック モデルです。確率論の原理、簡単に言えばベイズ理論の原理を使用して、知識ポイント (つまり、単語)、トピック、記事の 3 層の関係構造を確立します。単語からトピックへの確率行列マッピングがあり、トピックから記事への確率行列マッピングもあります。 まあ、LDA はこれ以上言うことはできません。そうしないと暴露されてしまいます。私もよく分からないから。 LDA は部署内で使用されていますが、特定のモデルを作成していません。同僚と話し合ったり、より正確に言えば、同僚に LDA の原理や設計のアイデアをいくつか尋ねたりしただけです。 (6)類似度の計算 テキスト類似度計算などの類似度計算。これは非常に基本的なモデリングであり、多くの場所で使用されています。たとえば、推奨事項について話すとき、内部の関連付けに関しては、エンティティ間の類似性を計算することが必要になる場合があります。 実際には、テキストの類似性を判断する方法は数多くあります。通常、TFIDF モデルは、テキストの知識ポイント、つまり重み付けされた単語を取得し、これらの重み付けされた単語を使用して類似度の計算を実行するために使用されます。 たとえば、コサイン類似度モデルは 2 つのテキスト間のコサイン角を計算しますが、そのベクトルは当然重み付けされた単語です。別の例として、さまざまな距離計算方法がありますが、最も有名なのはユークリッド距離ですが、そのベクトルはやはりこれらの単語です。最長共通部分文字列や最長共通部分列など、他にも多くのモデルがありますが、それらについてはあまりよく分かりません。 つまり、方法はたくさんあり、どれもそれほど複雑ではなく、原理は非常に似ています。どちらが適しているかは、具体的なビジネスシナリオによって異なります。 (7)テキストトピックレベル - 情報エントロピー 私と私の同僚はかつて、何百万ものブログ投稿をビッグデータ、モバイルインターネット、セキュリティなどのさまざまな分野に分類しようと試みました。実際のところ、それはまだ分類の段階です。 最初はベイズ分類を使用してうまく機能しましたが、最終的には SVM を使用してモデルをモデリングしました。これはポイントではありません。ポイントは、ある分野に分類された技術ブログ記事の分野レベルを判断したいということです。 私たちはさまざまな方法を考えてデータ モデルを構築しようとしましたが、結果は理想的ではありませんでした。最終的に、テキストの情報エントロピーを使用して度合いを説明するという、最も重要な方法に戻りました。最終結果は良好でした。これは、かつて同僚が言った「シンプルなものは必ずしも使いにくいわけではない」という言葉を再び思い出させます。 情報エントロピーは、エンティティの情報量を表します。簡単に言えば、エンティティの情報の混乱の度合いを表します。ある分野では、知識ポイントは似ており、すべてTFIDF重みを持つ単語です。したがって、テキストの情報エントロピーが小さいほど、そのテーマは集中して明確であり、情報の混乱度が低いと想定できますか?逆に、一部のテキストのテーマは非常に乱雑で、複数の分野のものが含まれる場合があり、その分野の度合いは低くなります。 少なくとも表面的には、この声明は機能しており、実際の効果はかなり良好です。 (8)ユーザープロフィール ユーザーポートレートの方向性は、過去 2 年間で最も人気のある方向性かもしれません。近年、大手インターネット企業や IT 企業は、従来の推奨からパーソナライズされた推奨へと意識的に進化し始めています。より深い推奨もあれば、より浅い推奨もあります。 ビジネス価値の核となるのはユーザーであることは言うまでもありません。では、ユーザー属性に基づいてどのようにレコメンデーションを作成するのでしょうか。それは、ユーザーの属性に基づいています。重要なのは、ユーザーの属性は最初から入手できないということです。私たちが持っているのは、少数のユーザーの固有の属性とさまざまなユーザー行動の記録だけです。ユーザーの現状も分からないのに、宣伝しても意味がないですよね? そのため、ユーザーを理解する必要があり、ユーザーに対してユーザーポートレート分析を行う必要があります。実際には、ユーザーにラベルを付け、属性ラベルでユーザーをマークすることです。このようにして、各ユーザーの大まかな状況を把握します。一部のビジネス活動にも目的があります。 ユーザーの各ポートレート属性をどのように記入するかについては、具体的な状況によって異なります。簡単に言えば、いくつかの単純なモデルを使用して情報を抽出し、それを入力します。そのために、複雑なアルゴリズムといくつかの複雑な変換を使用してユーザーにラベルを付けます。 (9)記事人気度計算 多数の記事がある場合、どの記事がより人気があり、どの記事があまり人気がないのかをどのように判断しますか? つまり、記事一覧ページに入ると、人気のある記事のランキングリストを提供できますか? おそらく、ほとんどのアイデアは非常に直接的です。クリック率、コメントの感情分析、記事のいいね数と嫌い数など、記事の人気を反映できる属性を取得し、単純な重み付け計算モデルを作成すれば、すぐに結果が出てきます。 基本的に、これは正しいです。単純なモデルは、実際の状況では必ずしもうまく機能しないとは限りません。一部の属性は確かに記事の人気度を反映できます。重み付け計算方法を使用するのも正しいです。具体的な重みは、具体的な状況によって異なります。 しかし、実際にこれをやると何が起こるのでしょうか?今日来たら、この人気おすすめリストを見ました。明日来たら、まだこのリストを見ました。明後日来たら、まだこのリストを見ました。 くそ、何が起こっているんだ? どうして毎日同じつまらないリストなんだ? 何回読ませるんだ? !はい、これが現実です。その結果、最も熱いものはさらに熱くなり、最も冷たいものはさらに冷たくなり、常に下に沈みますが、熱いものは常に前に出ます。 この問題を解決するにはどうすればいいでしょうか?時間も考慮します。新しい記事が前面に出てくるように、古い記事をダウングレードして人為的に抑制する必要があります。つまり、生成時間を重みに追加し、時間の経過とともに熱の重みを減衰させる必要があります。そうすることで、熱いものは常に熱いままではなく、冷たいものは常に冷たいままではなくなります。減衰曲線に関しては、具体的な事業によって異なります。 これによって根本的な問題は解決されるのでしょうか?記事自体に十分な情報が含まれていない場合はどうなるでしょうか。たとえば、記事のほとんどが新しく、いいねや嫌い、コメントがなく、クリックや露出も非常に少ない場合、以前のモデルは機能しません。 それで解決策はないのでしょうか?方法はあります。例えば、最も人気のある記事を推奨する同様の機能を提供する同様のサイトを見つけましたが、その効果は非常に良好です。それで、その人気を利用できるのでしょうか?記事の類似度を計算してホットリストを複製します。サイトの性質が似ていて、ユーザーの性質が似ていて、記事の品質が良く、類似度の計算が十分に正確であれば、このホットリストの効果は良いと思います(この方法は汚すぎる~~)。 (10)Googleのページランク まず、誤解しないでください。私はこのモデルを書いたことはありませんし、このモデルを書くための条件もありません。 昔の同級生たちとチームを組んでウェブサイト(KuJue.com)を作ったときに、それを知り、理解することができました。 IT 担当者として Web サイトに取り組んでいるのであれば、基本的な SEO テクニックを理解する必要があります。そこで、ウェブサイトの重みを増したいのであれば、外部リンクは不可欠だと気づきました。 私は昔の同級生の何人かに、外部リンクを作成するように、つまり、見つけたウェブサイトに私たちのウェブサイトへのリンクを貼るように言いました。彼らはこう尋ねました。「ウェブサイトにはリンクがたくさんある方が良いのでしょうか?」もっと多くのウェブサイトを掲載した方が良いでしょうか?どちらのウェブサイトが良いでしょうか?これは重要ではありません。重要なのは、彼らが「なぜ?」と尋ねたことです。 その質問に私は言葉を失い、怒りながら PageRank を勉強し始めました。 PageRank の具体的な減算プロセスについては説明しません (それに、私の中途半端なレベルでは明確に説明できないかもしれません) が、核となる考え方がいくつかあります。Web ページが引用される回数が多いほど、そのページの重みは大きくなります。Web ページの重みが大きいほど、そのページが引用する Web ページの重みも大きくなります。Web ページが引用される回数が多いほど、そのページが引用する Web ページによってもたらされる重みは小さくなります。 このプロセスを繰り返していくと、あるウェブページのランキングは基本的に固定されていることがわかります。これが PageRank の基本的な考え方です。もちろん、初期ウェブページの初期重みをどのように与えるか、高計算反復処理の計算プロセスをどのように簡素化するかなど、解決すべき問題もあります。これらの問題は、Google の実際の運用では十分に最適化されています。 (11)インターネットからの誘導データクロール 実際のところ、これはアルゴリズムとはあまり関係ないと思いますが、データ取得設計プロセスがあるので、そのように考えることができます。 この必要性を感じた理由は、当時ウェブサイト構築にとても熱中していたため、自分用のスタジオ ウェブサイトを構築したからです。私は、他の人、特に中小企業向けのウェブサイトを構築したいと考えていました。軽くカスタマイズされた企業ウェブサイトも含め (大変でしたね -_-)、実際にいくつかの事例を作成しました (私のスタジオ ウェブサイト: www.mite8.com、ご興味があればご覧ください)。 そこで、どうすれば自分で顧客を見つけられるか考え始めました。スタジオのクライアントは、現在ビジネスポータルを持っていない中小企業の経営者である必要があります。私はデータ プログラマーであり、掘削機も運転しますが、後発で蘭翔大学の卒業生でもなく、無免許で働いていますが、少なくとも丘をいくつか掘ったことがあります。 今はネットが主流の時代です。ネット上には必ず何かしらの手がかりが残されています。それを掴みたいですね!私の目標は非常に明確です。企業ウェブサイトを持たない企業の企業メールアドレスを取得し、独自の EDM マーケティング (電子メール マーケティング) を実施したいと考えています。 1) まず、Zhaopin.com ページを検索し、従業員数が 40 人未満の企業の名前を取得しました。Zhaopin.com のページは静的でフォーマットが整えられているため、解析が容易です。そのため、小規模企業グループの名前を分析するのは簡単でした。 2) 会社名がわかったら、その会社に独立した公式ウェブサイトがあるかどうかをどのように判断すればよいでしょうか?分析してみると、検索エンジンで会社名を検索すると、公式ウェブサイトがあれば必ずホームページに掲載されていることがわかりました。また、そのページ アドレスにも一定のパターンがあります。つまり、独立した公式 Web サイトの先頭は通常 www で始まり、長さは一般的にそれほど長くなく、通常は index.html、index.php、index.asp などで終わります。 これらのルールにより、公式ウェブサイトを持つ企業名を通過させることができます。 2つの困難に遭遇しました。1つは、検索エンジンのページソースコードの多くが動的に読み込まれるため、ブラウザのアクセスプロセスをシミュレートして、ページのソースコードをキャプチャしました。これは、クローラーの一般的な方法でもあります。2つ目は、最初はBaiduを介して取得しようとしましたが、Baiduは結果のキャプチャを停止する対策をいくつか講じているようで、満足のいく結果が得られなかったことです。そこで目的を変えて360の検索を使用したところ、問題は解決しました(検索エンジンに関しては、Baiduは360よりもはるかに強力であることが判明しました)。効果も同様でした。 3) 除外問題を解決した後、根本的な疑問が生じます。会社の企業メールをどうやって入手するか?検索エンジンによって返された結果を分析したところ、多くの中小企業が、会社の連絡先の電子メール アドレスが記載されたサードパーティの Web サイトが提供する会社のイエロー ページを使用することを好んでいることがわかりました。また、一部の企業は、会社の電子メール アドレスを使用して採用情報を公開しています。 データ分析を通じて、最終的にこの部分のデータを取得し、電子メールアドレスが有効かどうかなどの基本的な分析を最後に行いました。最終的に、3,000 件を超える企業の電子メール アドレスを取得し、効率率は 80% を超えました。 問題は解決されましたが、まだ最適化が必要な領域がいくつかあります。まず、効率の問題があります。3,000を超えるメールボックスを実行するのに12時間近くかかりました。解析する必要がある場所が多すぎて、シミュレートされたブラウザーは効率的ではありません。次に、メールボックスの有効性を判断するのは簡単ではありません。一部のメールボックスは、単に人間が書き込んだものです。さらに、一部のWebサイトでは、メールボックスを画像に加工しています。つまり、クロールを防ぐために検証コードのようなものにしています。私は画像メールボックスデータを解析しませんでした。実は、この問題には解決策があります。サンプル画像をいくつか入手し、絵文字認識をトレーニングして、メールボックスを解析できるようにします。 全体として、この経験は非常に充実したものでした。結局のところ、私は余暇に自分の問題点のいくつかを解決し、学んだことのいくつかに習熟し、言い換えれば、実装の過程で多くのことを学びました。 追記: このプロジェクトを見つけるには、github で webmite を検索してください。コードは github でホストしています。また、私のブログからアクセスすることもできます。 2. 自分用の要約を作成する 実際、私の個人的な欠点は非常に明白です。まず第一に、私はデータマイニングに関する体系的なトレーニングを受けたことがありません(蘭香に行ったことがなく、データのマイニング方法を独学で学びました)。つまり、私は独学の人間です。そのため、多くのアルゴリズムの原理は十分に明確ではなく、一部のビジネス シナリオに対して建設的な提案を提供できない可能性があります。さらに、多くのアルゴリズム ライブラリの使用については、まだ十分に理解していません。 2つ目は数学的基礎の欠如です。一部の複雑なアルゴリズムには強力な数学的基礎が必要であることはわかっています。アルゴリズム モデルは本質的に数学モデルです。したがって、これも私の欠点です。 個人はビッグデータマイニングに偏っているため、ビッグデータモデルに基づくデータマイニングプロセスは、従来のデータプロセスとは大きく異なる可能性があります。たとえば、データの前処理プロセス、ビッグデータマイニングの前処理は、リアルタイム処理システム Storm、メッセージキュー Kafka、分散データ収集システム Flume、データオフラインバッチ処理 Hadoop など、いくつかの一般的な分散オープンソースシステムに大きく依存しています。データ分析とストレージの点では、Hive と一部の Nosql に大きく依存する場合があります。それどころか、私は SAS、SPSS、Excel などの従来のマイニング ツールにはまだあまり詳しくありません。しかし、焦点が異なるため、これは欠点とは言えません。全体的には、大規模なデータマイニングがトレンドになるでしょう。 3. 友人への提案 ここまで述べてきましたが、上記のことはすべての人にとって役立つとは限りませんが、もちろん、掘削機を運転する友人にとっては役立つでしょう。私が今表現したいことは、マイニングに直接関係するものではないかもしれませんが、むしろ動物園の動物たち(プログラマー、シージライオン)が自ら学び、進化するための提案をすることです。 (1)何かを学びたいなら、厚い皮膚を持つことが何の役に立つでしょうか? 私は個人的にこれについて深く理解しています。過去を振り返ってみると(ええ、この言葉は今でも痛いですが)、大学時代の専攻は情報セキュリティで、どちらかというとネットワーク寄りだったので、学んだ言語は主にCとC++でした。Javaの授業すらありませんでした。はっきり言って、JavaでHelloWorldを書くことすらできませんでした。 大学を卒業したばかりの頃、ワクワクしながら会社に行って C を書きました。ところが、1 か月も経たないうちに新しいプロジェクトが来て、要件が変わりました (くそ、開発者が一番恐れていることはこれです)。それで、変更されたらどうなるのでしょう? くそ、ビッグ データを勉強したいのに、C で何ができるのでしょう?いくつかのオープンソース システム ツールのうち、10 個中 9 個は Java で書かれています。その時は泣きました! そこで私はチームメイトにせがんで、できる限り質問しました。これらの質問の中には、Java に精通している人にはまったく馬鹿げていると思われるものもありました。しかし、初心者にとっては、これは絶対に貴重なアドバイスです。自分で調べると、他の人のたった一文で理解するのに何時間もかかるかもしれません。 1 か月後、ようやくコツをつかみ、その後は物事がずっと楽になりました。 その後の数日間、何か問題に遭遇するたびに、私はいつも恥ずかしげもなくコミュニケーション グループの専門家たちに質問し、ゆっくりと進歩していきました。最近、Scalaを勉強し始めました。幸い、私の隣にはScalaの達人がいます。ハハ、彼にとっては大変ですね〜〜 したがって、わからないことに遭遇したときは、質問が単純で聞くのが恥ずかしいと恐れないでください。あなたは厚顔無恥でなければなりません!そんな簡単な質問も分からないくせに、どうして自分の顔を気にする資格があるというのか? ! (2)コミュニケーションと共有 コミュニケーションと共有についての私の考えは、2012 年後半に Storm を調査していたときに始まりました。 2012 年当時、Storm は現在ほど人気がありませんでした。研究している人も少なく、コミュニケーションを取る人もいませんでした。入手できる情報も少なかったため、問題を解決するのは非常に困難でした。 もちろん、初期のStormを研究し、経験と技術を共有したブログである「Da Yuan Those Things」や「Zhuang Zhou Meng Die」など、私に大いに役立ったブログがいくつかあります。その時、ブログを書こうと思いつきました。 その後、私はStormについて学んだことを整理することに多くのエネルギーを費やしました。当時は良いコミュニケーションプラットフォームがないことを嘆いていたため、「Storm-Distributed-IT」技術グループ(グループ番号191321336、主にStormとビッグデータに取り組んでおり、興味のある人は誰でも参加できます)を作成し、整理した情報、コード、経験をプラットフォームとブログで共有しました。 私は常に「進歩はコミュニケーションから始まり、利益は共有から生まれる」という概念を主張してきたため、ますます多くの技術者の友人がこの大家族に加わり、常に経験と技術をグループの貢献にフィードバックし、好循環を実現してきました。 わずか 2 年足らずで、グループは数千人規模にまで成長し、技術的な雰囲気とグループ メンバーの質の両面で、IT 技術グループの中でも間違いなくトップクラスとなっています。 個人的な観点から言えば、このようなコミュニケーションから多くのことを学べます。3人のうちには必ず先生がいると信じなければなりませんが、このことわざは理にかなっています。共有はコミュニケーションを促進するための基礎です。誰もが、自分が得たものは他の人と共有することで得られるものだと認識して初めて、より多くの人々が参加できるようになります。 実は、ここまでいろいろ言った後、私が伝えたいのはたった2点です。他の人ともっとコミュニケーションを取り、彼らの意見に耳を傾けること。そして、自分の利益を分かち合うことは、良心の呵責を感じていることの表れです。 (3)いつでも本を読んで脳に栄養を補給しましょう 実は、これは皆さんへの提案であるだけでなく、私自身への警告でもあります。 私もこれはあまり得意ではありません。ずっと前に、1か月で本を1冊読み終えるという目標を立てました。結局、仕事上の問題やその他さまざまな事情により、これはまだ実装されていません。購入した「My Internet Tips」という本の最初の数章を読んだだけです。最良の例は、前の月でした。 この本に美しい女性がいるかどうかはわかりませんが、本には間違いなく黄金の家があります。より多くの本を読んで、あなたの日常生活を学びます。 ! 読書の内容については、仕事のために理解して読む必要があることについてはあまり語りません。余暇があれば、他の関連分野を探求することをお勧めします。 したがって、より多くの本を読んで、もっと豊かにしてください、これは正しいに違いありません! (4)定期的に自分自身を整理し、整理します 習得したもの、不足しているもの、習得したものが十分であるかどうか、不足しているものを補う方法を定期的に確認してください。これらはすべて、私たちが自分自身を整理したときにのみ、私たちがやりたいことを知っていることができます。 もちろん、情報を整理した後、それを実践する必要があります。各レビューの後に比較を行う必要があります。もちろん、私が物事を整理するたびに、私は自分自身のために計画を立てるためにそれをします。 実際、多くの人々は、実際にはヨブホッピングのシーズンに関しては、すでに現在の仕事に不満を抱いていますが、彼らは常に十分に能力がないと感じています。これは、彼ら自身が実際に持っていることを十分に理解していないからです。 あなたがどれだけ習得したか、コア領域に精通しており、関連領域に手を出していることについて明確なアイデアを持っているなら、あなたはまだ何を心配していますか?インタビュアーが本当にあなたにノーと言うなら、あなたは言うことができます:こんにちは、私はあまり時間がありません、私はまだオファーを選ぶ時間があります! (5)実生活で学ぶ動機を見つけるのが得意です 人々は何度も怠け者です。 私は本当にこれを学びたいと思っています、そして私は本当にそれを理解したいのですが、重要なのは、週末が来るとき、私はただベッドに横になりたいということです!最終分析では、学ぶ動機はありません! 言い換えれば、私たちは実生活で勉強するように動機付けている理由を見つけるのが得意でなければなりません。 ここにいくつかの簡単な例があります: 1)前に述べたように、私はしばらくの間ウェブサイトを研究してきました。ウェブサイトを宣伝するために、私はさまざまな方法でSEOを勉強しましたが、SEOの専門家の基準には程遠いです。生計、ハハ)など。 2)EDMのターゲットを見つけるために、余暇を使用してインターネット上のデータを分析し、コードを書き、データ、テストデータを実行します。実際、それ以前は、クローラーについてあまり知りませんでした。これは、「インターネットから有用なデータをクロールする」ことで完全に駆動されていました。それだけでなく、メールボックスを取得した後、EDMの電子メールをより「プロフェッショナル」に見せるために、HTMLを使用して見栄えの良い電子マーケティングの電子メールページを作成する方法を自分自身に教え始めました。 3)仕事で多くの自由時間を過ごした時期があり、気まぐれに、大学時代に持っていた小説を書くという夢を実現しました。それで、私はZongheng小説のウェブサイトで小説を書き始めました。しかし、これはポイントではありません。Zonghengは、すべての著者が彼または彼女の小説のために小説を提供することを要求しているということです。私は尋ねに行きましたが、ボロボロのカバーには20ドル以上の費用がかかることがわかりました。ぼろぼろのカバーには20ドルの費用がかかり、私はITの人です。それで、私は大学で放棄したPS学習計画を取り上げ始めました。もちろん、私は自分のカバーを完成させることができ、少なくとも数十人の著者の友人を提供しました。もちろん、これはすべて話題から外れています。小説に関しては、私は契約に署名しただけでなく、ロイヤリティで数千ドルを獲得しました。 PSテクノロジーに関しては、プロのフロントエンド担当者と比較することはできませんが、画像を変更して写真をレタッチするのに問題はありません。 4)これは遠すぎます。何か近いものについて話しましょう。私はしばらく前にScalaを学び始めました。私の個人的なニーズによれば、私はJavaでそのプロジェクトを書くことができましたが、重要なのは、この機会を逃した場合、次回はこの有望な言語を学ぶことができないかもしれないということです。そのため、このプロセスを使用して、奇妙な言語を使用してすぐに入力することができました。最初に終了することは困難です。残りは蓄積プロセスです。 実際、これらはすべて1つの点にあります。私たちは自分自身のいくつかの理由をタイムリーに見つけ、学習し、新しいことを獲得し、自分自身を改善することを余儀なくされなければなりません。 兄弟、私は毎日残業していると言います。 !まあ、あなたがそう思うなら、とても多くの睡眠時間を遅らせて申し訳ありません。 実際、上記の鍵は態度です!あなたは学びたいと思っていますか、あなたは自分自身を改善し、自分自身を昇華させるという考えを持っていますか?そして、あなたは昇進、給与の増加、UFOになり、金持ちで美しい女性と結婚するという考えがありますか?はい、これらはすべて自分で行われています。誰もあなたに強制することはありません。これらのアイデアがあれば、これらのことは多かれ少なかれ役立ちます。 物事に対する私たちの態度に加えて、私たちのメンタリティも非常に重要であるため、物事についてもっと楽観的でなければなりません。数日前、インターネット採用に従事していたグループの友人が私に尋ねました:あなたはテクノロジーの人ですか?はいと言いました。彼は、私は退屈していて、あなたほど陽気ではない多くの技術者を知っていると言いました。いつかトイレで死にたくないと言った~~ ほとんどの人から与えられた印象は、実際に内向的であり、話すのが得意ではなく、社交的ではありません。実際、毎日多くの仕事があり、リーダーは人々を訓練するために会議を開催し、製品の需要が再び変化しました。これは本当にクレイジーです。高い作業圧力は、IT担当者にとって標準属性です。 私たちは前に言ったように、何かを学ぶことはあまり暇ではないかもしれませんが、私たちは単に問題を解決し、それを強制された無力な動きではなく、自分自身を改善し、昇華させる方法として扱うべきではありません。仕事が気に入らないことを確認した場合は、seして断固としてジャンプしないでください!私は心の中に商品を持っています、そして、私は買い手を見つけることができないのではないかと心配しています! 常にすべてに対して良い態度をとるように注意し、自分自身を認識し、自分自身を改善するためのあらゆる機会をつかみ、これが私が言いたいことを維持します。 私は多くのナンセンスを言いましたが、実際には多くのナンセンスがナンセンスであることを知っていますが、私のナンセンスが同じ動物園の人として一緒に働くことができることを願っています! 出典: Blogworm による寄稿、オリジナルリンク。著者の公開wechatアカウント:blogchong(ID:blogchong) オリジナルタイトル:長年にわたって、これらの掘削機のアルゴリズム、これらの反射 キーワード: |
>>: ブロードバンド事業者がホームネットワークのアップリンクブロードバンドを制限するのはなぜですか?
ウェブサイトの場合、ホームページとチャンネルページはサイト全体で最も高い重みを集めます。では、ホーム...
2 月 20 日、racknerd はコード名「2K20」の 3 つの安価な VPS モデルをリリー...
ライブストリーミング電子商取引が新たな発展段階に入るにつれ、さまざまなプラットフォームも新しいルール...
拡張現実 (AR) 技術は、医療、スポーツ、製造、現場サービスなど、多くの分野に応用されており、依然...
最近、Guangxian Technology の Xiao Ming は、企業 Web サイトの構...
ブラック ハット SEO の概念は、Maddie SEO Learning Network で説明さ...
[[211663]]プロダクトのゴッドファーザーである張小龍氏は、WeChat リーダーシップ カン...
サービスであれ、物理的な製品であれ、信頼できる販売チャネルを見つけることによってのみ、商品を販売する...
[[270834]]近年、テクノロジー界では人工知能が注目されている分野となっている。中国では近年、...
今日、友人から電話がありました。彼は一般ステーショングループトラフィックのビジネスに携わっていて、今...
疫病の影響、貿易環境の変化、戦争紛争の影響…全体的な経済低迷とマクロ経済環境への高圧力の状況下で、す...
Fanli.com は、急成長を遂げるオンライン ショッピング市場で急速に成長している新興の電子商取...
Baidu の最新のメジャーアップデートでは、多くのウェブサイトがブロックされ、残念ながら私のブログ...
写真撮影アプリ「Shutterly」が最近、ユーザーの写真の膨大なデータベースをクラウドに移行するこ...
zgovps は、ロサンゼルス データ センターに新しい大容量ハードディスク VPS シリーズ、ロサ...