Ana içeriğe atla

Nutch-Hadoop-HBase Crawling


  • Uzak masaüstüne bağlanmak için ssh ..@...
  • Şifreyi girin
  •  "vim seeddosyasi" komutuyla dosyayı açıp url leri yazın. 
  • "hadoop dfs -put dosyadı dosyadı" komutuyla bu dosyayı hadoop sistemine ekleyin.

Yorumlar

Bu blogdaki popüler yayınlar

Selenium - XPath Kodları

XPath, XML Path Absolute XPath: root node u verir ve / ile başlar Elementin path inde herhangi bir değişiklik yapılırsa, test kodu hata verir. Örn:  html/body/div[1]/section/div[1]/div/div/div/div[1]/div/div/div/div/div[3]/div[1]/div/h4[1]/b Relative XPath: xml dokümanındaki elementi verir ve // ile başlar Örn : //*[@class='featured-box']//*[text()='Testing'] XPath Kombinasyonları: Belli bir tagin belli bir attribute değeri ile kullanımı Herhangi bir tag in belli bir attribute değeri ile kullanımı "and" operatörü "or" operatörü Belirli bir değer ile başlayan attribute Metnin bir kısmını içeren attribute Sadece text() Herhangi bir attribute un değeri Belli Bir Tag'ın Belli Bir Attribute Değeri ile Kullanımı (Specific tag with specific attribute value) Html Kodu < input   id = "Lid"  .....   > input:tag adı (etiket adı) id : attribute Lid : attribute değeri Selenium Kodu driver.findElement(By.x...

Nutch 2.2 'yi Intellij'de Çalıştırma

          İlk olarak pom.xml'i oluşturun. pom.xml'de  <build> kısmında <sourceDirectory> bölümüne plugin'ini kaynak kod olarak göstermeniz gerekir. (ikincisi yeni eklenen plugin için gerekli) <resources>             <resource>                 <directory>${basedir}/src/plugin/SaveFile/src/java</directory>             </resource> </resources>           Ana dizindeki conf klasöründe; nutch-site.xml'e aşağıdakini ekleyin.     <property>         <name>storage.data.store.class</name>         <value>org.apache.gora.hbase.store.HB...